next up previous contents
次へ: 擬似的に作成したデータを用いた実験 上へ: 実データを用いた実験 戻る: 実験方法   目次

実験結果

対象語列は,新聞からは15,926種類,ブログからは48,531種類抽出でき,重複を除いてあわせると,全体では55,958種類が得られた. 4.1節に基づいて処理した結果を表4.1に示す(ただし表中の$fr_{b}$はブログでの出現頻度である). 表4.1$fr_{b}=0$のデータからランダムに100個,のデータからランダムに100個の対象後列を を抜き出して,新聞での使われ方を評価した結果である.

新聞において△と判定された対象語は,記事中では鍵括弧は 使用しないが,引用などに出現した文であり,実際には誤りの文ではない. しかし,△と判定された対象語はブログなどで使用されるくだけた日本語であり, その検出個数を調べることで, そのような表現の抽出性能を調べることができる. このため,ここではくだけた日本語である△と,誤り表現である× を検出できると,検出成功と考えて評価した.

4.1より, △または×の検出の割合(適合率)は文書Bでの頻度($fr_{b}$)が増えるに従い 上昇することが確認された. これにより,提案手法の有効性が確かめられた.

4.1の結果については表4.2を利用して検定を行って, ブログの頻度がの場合との場合とで, △or×の検出の割合(適合率)に有意差があることを確認した.

検定について説明する. 表4.1のように,2*2の表において, 1行目を左からa,b,gとし,同様に2行目をc,d,h,3行目をe,f,nとすると, 検定統計量Tは次のように定義されている.

(4.1)

ここで表4.2について,式(4.1)より,となる. 有意水準 で自由度のとき,棄却域は, (f,)=(1,0.05)=3.84である(以降の検定も同じ条件で行う). つまりより,評価○と△or×とは独立でない(関係がある)とわかった. すなわち,ブログ(文書B)の頻度を利用する提案手法 の有効性は統計的検定によっても確認されたことになる.


表: 新聞での出現が1回の対象語列の評価結果



表: 表2を2*2分割表に変換したもの


同様に,文書AとXにブログを利用し 文書Bに新聞を利用して評価を行うと, 表4.3と表4.4の結果が得られた. この結果でも,新聞(文書B)の頻度が上昇するほど, △or×の検出の割合(適合率)が上昇している. 検定により, となった つまり評価○と△or×とは独立でない(関係がある)ことになる. よって新聞頻度情報の利用も有効であることがわかった.

これら2つの結果より,新聞(文書B)での頻度の1以下と2以上と, 評価○と△or×とは独立でない(関係がある)ことがわかった. よって,この実験でも 提案手法が有意に有効であることが確認された.


表: ブログでの出現が1回の対象語列の評価結果



表:4.3を2*2分割表に変換したもの


次に,人手評価により×とした事例について考える. ×とした事例は表4.1と表4.3から3件見つかった. ×とした事例を図4.1に示す. 図で例文中の該当箇所を[ ]で囲って示す.

図: 評価×の事例

4.1で評価×とした『ぬ+で』について,調べた限りでは,このような表現の使われ方はされないことがわかった.

また,表4.3では評価×が2件見つかった. 『を+な+、』は,おそらく尻取りを文字化した文で使用されているのだが,この部分のみ句点が入っており, それにより形態素解析の結果がおかしくなったものと考えられる. 『に+で+ある』は周りの文脈から,本来は「〜どこにでもある小説になってしまう」とするのが正解と判断できる. しかしここでは脱字になっていたため,評価×と判断した.

よって本手法では 不適切な文体の表現だけでなく,誤字脱字についても 場合によっては検出できることがわかった.


next up previous contents
次へ: 擬似的に作成したデータを用いた実験 上へ: 実データを用いた実験 戻る: 実験方法   目次
平成25年10月13日