ここで,対象語列の取り出し方について,図3.1の例文を用いて説明する.
図3.1の例文に対して,ChaSenによって形態素解析を行ったときの出力は,図3.2の通りである.
この例では下線で示した部分が対象語列である. 連続しているものについては間に「+」を入れて,文書A,Bでの頻度情報と合わせてデータベース化し,検出に用いる. 表3.1では,4章で使用している,新聞頻度1の対象語列を示している.文書Bの頻度(ここではブログの頻度である)が高くなるほど,口語的なものが多く含まれていることがわかる.
全体的な流れを,例を用いて図3.3に示す. ただし図中での対象語列の頻度は,わかりやすく示すための作例であり,実際の頻度とは異なる. 図3.3では修正対象を新聞としている.「だよねぇ。」が新聞では出現頻度が0回,ブログでは出現頻度が40回なので,誤りとして出力をしている.