次へ: ブログに1,000文の新聞の文書を混ぜた実験
上へ: 擬似的に作成したデータを用いた実験
戻る: 入れ替えた文の検出
目次
新聞に1,000文のブログ文書を混ぜた実験
文書A,Bに4章で用いた新聞とブログの文書を利用した.
文書Xには,新聞の文書に1,000文のブログの文書を混ぜたデータを利用した(ただし
文書A,Bと文書Xに重なりはない.これは5.3節でも同様である.).
新聞での頻度が0の対象語列を抽出すると,
混ぜた1,000文からは6文が,もとの9,000文からは322文
が検出された.
これら328文を,ブログでの頻度,および,
混ぜた文かいなかで分けると表5.1のようになる.
4章と同様に検定を行うのだが,
ただし今回はcとdが「4」以下なので,検定統計量の計算式が4.1式と異なる.Yates(イエーツ)の補正式
を用いる.
この式を用いて検定統計量を求めると,表5.1はなので,混ぜた文と,もとの文とは独立でない(関係がある)ことになる.
また,ブログ(文書B)での頻度が2以上の方が,1以下のものよりも,有意に混ぜた文の検出の割合(適合率)が高いことが確認された.
よって,ブログ(文書B)での頻度を利用することの有効性が確認された.
表:
新聞頻度0で検出した結果をブログ頻度で分けたもの
|
平成25年10月13日