新聞において△と判定された対象語は,記事中では鍵括弧は 使用しないが,引用などに出現した文であり,実際には誤りの文ではない. しかし,△と判定された対象語はブログなどで使用されるくだけた日本語であり, その検出個数を調べることで, そのような表現の抽出性能を調べることができる. このため,ここではくだけた日本語である△と,誤り表現である× を検出できると,検出成功と考えて評価した.
表4.1より, △または×の検出の割合(適合率)は文書Bでの頻度()が増えるに従い 上昇することが確認された. これにより,提案手法の有効性が確かめられた.
表4.1の結果については表4.2を利用して検定を行って, ブログの頻度がの場合との場合とで, △or×の検出の割合(適合率)に有意差があることを確認した.
検定について説明する.
表4.1のように,2*2の表において,
1行目を左からa,b,gとし,同様に2行目をc,d,h,3行目をe,f,nとすると,
検定統計量Tは次のように定義されている.
同様に,文書AとXにブログを利用し 文書Bに新聞を利用して評価を行うと, 表4.3と表4.4の結果が得られた. この結果でも,新聞(文書B)の頻度が上昇するほど, △or×の検出の割合(適合率)が上昇している. 検定により, となった つまり評価○と△or×とは独立でない(関係がある)ことになる. よって新聞頻度情報の利用も有効であることがわかった.
これら2つの結果より,新聞(文書B)での頻度の1以下と2以上と, 評価○と△or×とは独立でない(関係がある)ことがわかった. よって,この実験でも 提案手法が有意に有効であることが確認された.
次に,人手評価により×とした事例について考える. ×とした事例は表4.1と表4.3から3件見つかった. ×とした事例を図4.1に示す. 図で例文中の該当箇所を[ ]で囲って示す.
表4.1で評価×とした『ぬ+で』について,調べた限りでは,このような表現の使われ方はされないことがわかった.
また,表4.3では評価×が2件見つかった. 『を+な+、』は,おそらく尻取りを文字化した文で使用されているのだが,この部分のみ句点が入っており, それにより形態素解析の結果がおかしくなったものと考えられる. 『に+で+ある』は周りの文脈から,本来は「〜どこにでもある小説になってしまう」とするのが正解と判断できる. しかしここでは脱字になっていたため,評価×と判断した.
よって本手法では 不適切な文体の表現だけでなく,誤字脱字についても 場合によっては検出できることがわかった.