next up previous contents
次へ: ブログに1,000文の新聞の文書を混ぜた実験 上へ: 擬似的に作成したデータを用いた実験 戻る: 入れ替えた文の検出   目次


新聞に1,000文のブログ文書を混ぜた実験

文書A,Bに4章で用いた新聞とブログの文書を利用した. 文書Xには,新聞の文書に1,000文のブログの文書を混ぜたデータを利用した(ただし 文書A,Bと文書Xに重なりはない.これは5.3節でも同様である.). 新聞での頻度が0の対象語列を抽出すると, 混ぜた1,000文からは6文が,もとの9,000文からは322文 が検出された. これら328文を,ブログでの頻度,および, 混ぜた文かいなかで分けると表5.1のようになる. 4章と同様に検定を行うのだが, ただし今回はcとdが「4」以下なので,検定統計量の計算式が4.1式と異なる.Yates(イエーツ)の補正式
(5.1)

を用いる. この式を用いて検定統計量を求めると,表5.1はなので,混ぜた文と,もとの文とは独立でない(関係がある)ことになる. また,ブログ(文書B)での頻度が2以上の方が,1以下のものよりも,有意に混ぜた文の検出の割合(適合率)が高いことが確認された. よって,ブログ(文書B)での頻度を利用することの有効性が確認された.


表: 新聞頻度0で検出した結果をブログ頻度で分けたもの




平成25年10月13日