next up previous contents
次へ: 実データを用いた実験 上へ: 提案手法 戻る: 検出対象の品詞   目次


手順

検出は以下の手順で行う.
手順1
ChaSen[9]による形態素解析で,分野の異なる2つの文書(ここでは文書A,文書Bとおく.できるだけ大量のデータであることが望ましい)から対象語列を抽出する.
手順2
それぞれの文書での対象語列の出現頻度を調べる(例として表3.1を参照.$fr_{b}$は ブログの文書での頻度).
手順3
文書Aと同じ分野の文書Xで誤り検出をしたい場合, 文書Aでの出現が0回であり,文書Bでの出現が多い対象語列を文書Xで探し, 見つかればそれを誤りの可能性があるものとして出力する.

ここで,対象語列の取り出し方について,図3.1の例文を用いて説明する. 図3.1の例文に対して,ChaSenによって形態素解析を行ったときの出力は,図3.2の通りである.

図: 例文

図: ChaSenによる形態素解析の出力

この例では下線で示した部分が対象語列である. 連続しているものについては間に「+」を入れて,文書A,Bでの頻度情報と合わせてデータベース化し,検出に用いる. 表3.1では,4章で使用している,新聞頻度1の対象語列を示している.文書Bの頻度(ここではブログの頻度である$fr_{b}$)が高くなるほど,口語的なものが多く含まれていることがわかる.

全体的な流れを,例を用いて図3.3に示す. ただし図中での対象語列の頻度は,わかりやすく示すための作例であり,実際の頻度とは異なる. 図3.3では修正対象を新聞としている.「だよねぇ。」が新聞では出現頻度が0回,ブログでは出現頻度が40回なので,誤りとして出力をしている.


表: 新聞での出現が1回の対象語列の出力例


図: 実験の流れ



平成25年10月13日