新聞とブログを用いて, 実データを用いた実験と 疑似データを用いた実験の二種類を行った. この二種類の実験ともに, 複数の分野の文書での頻度を利用した方が 単一の分野の文書での頻度しか用いない方法よりも, 統計的検定により有意に性能(適合率)が高いことを確認した. これにより,今後は, 日本語誤り表現の検出に, 複数の分野の文書での頻度を用いていくと 良いことがわかった.
本研究では,修正対象の文書を,新聞の経済面のみとした場合の 疑似データに基づく実験も行った. この実験では新聞データにブログの文を混ぜておき, 新聞データからブログデータを検出できれば ブログのようなくだけた文を検出できたという意味で 検出に成功したと考える. その実験において, 複数の文書の頻度を用いないベースラインの方法 (ブログでの頻度を用いない方法)では, ブログ文の検出は0.299の適合率であった. また,複数の文書の頻度を用いる提案手法 (ブログでの頻度を用いる方法)では, ブログでの頻度が1以上,2以上,10以上とした場合にそれぞれ 0.344,0.377,0.468という適合率を得た. 提案手法はベースラインよりも高い適合率であった. 提案手法はブログでの頻度が高い場合ほど高い適合率を得ることを確認した.
ブログでの頻度が高い場合ほど高い適合率を得ることが できるので,提案手法は効果的な利用方法が考えられる. 例えば,ブログでの頻度が高い表現から修正候補として提示 することで,誤りの可能性が高い表現から人手でチェックしていくことが 可能である.
本研究では,新聞とブログのデータしか用いなかった. 文書としては,論文やウィキペディアなどを利用することも考えられる. これらの文書に対して提案手法を利用することは今後の課題とする.