本研究では,そういった表現を検出することを目的としている. 検出対象としたい文書と同じ分野の文書と,異なる分野の文書の2個をあらかじめ用意しておき, 語句の出現頻度を調べて,検出対象とする分野ではほとんど使われないが,違う分野では多く使われる表現があれば, それは誤りである可能性が高いと判断をする.
本研究では,異なる分野での頻度を利用することが有効であるかを,実データと,擬似的に作成したデータの2つで実験を行い明らかにしている. また,手法の改善点や,利用法についても考察を行っている.
本研究では,修正対象の文書を,新聞の経済面のみとした場合の 疑似データに基づく実験も行った. この実験では新聞データにブログの文を混ぜておき, 新聞データからブログデータを検出できれば ブログのようなくだけた文を検出できたという意味で 検出に成功したと考える. その実験では, 複数の文書の頻度を用いないベースラインの方法 (ブログでの頻度を用いない方法)において, ブログ文の検出は0.299の適合率であった. また,複数の文書の頻度を用いる提案手法 (ブログでの頻度を用いる方法)において, ブログでの頻度が1以上,2以上,10以上とした場合にそれぞれ 0.344,0.377,0.468という適合率を得た. 提案手法はベースラインよりも高い適合率であった. 提案手法はブログでの頻度が高い場合ほど高い適合率を得ることを確認した.
ブログでの頻度が高い場合ほど高い適合率を得ることが できるので,提案手法は効果的な利用方法が考えられる. 例えば,ブログでの頻度が高い表現から修正候補として提示 することで,誤りの可能性が高い表現から人手でチェックしていくことが 可能である.