next up previous contents
次へ: 追加実験 上へ: 擬似的に作成したデータを用いた実験 戻る: ブログに1,000文の新聞の文書を混ぜた実験   目次

考察

5.2節と5.3節の結果より,両方の結果で 文書Bでの頻度を用いる提案手法が有効であることがわかった. 例として, ブログに新聞を混ぜた実験(5.3節)で 提案手法(ここでは$fr_{b}=0$かつとする)により 正しく混ぜた文を検出できた対象語列を表5.3に示す. これは表5.2のであり混ぜた文である 2個に相当する. この例をみると, ブログに似つかわしくない堅めの表現が 正しく取り出せていることがわかる.


表: 5.3節で提案手法で正しく検出できた対象語列($fr_{b}=0$かつのもの)


同じ実験で 提案手法($fr_{b}=0$かつ)により 正しくもとの文を 誤りとはしなかった(もとの文を取り出さなかった) 場合の対象語列を表5.4に示す. これらの例は,新聞での頻度が少なく, 誤り表現としては取り出されなかった. これらの例は ブログにあってもおかしくない表現であり, 提案手法は正しく誤り表現としていないことがわかる.


表: 5.3節で提案手法で正しく 誤り表現としなかった対象語列($fr_{b}=0$かつのもの)


次に5.2節と5.3節の 実験結果について再現率,適合率,F値を調べた. その結果を表5.5に示す. 表5.5中のベースラインは文書Bがどのような頻度であっても誤りとして検出する 手法であり,ここでの提案手法は 文書Bで頻度2以上であったもののみを誤りとして検出する ものである.


表: 5.1節の各実験における再現率・適合率・F値


提案手法は, 再現率,F値ではベースラインに劣っている. また適合率については,提案手法はベースラインよりも高いが, 値自体は低いものであった. 提案手法のように文書Bを考慮することが 誤り検出(誤り検出における適合率の上昇)に有効であることは 統計的検定で確認されているが, 再現率,適合率,F値の低さを考えると, 提案手法はまだまだ改善の必要性がある.

再現率が特に低かったため, 5.2節を例に,実験結果で検出できなかったブログ記事をランダムに20件取りだし,どのような文体がどれくらいの割合で含まれているかを調査した.表5.6にその割合を示す. ブログ記事の文は一般に口語的な文であることが想定されるが, 『新聞に近い文体で書かれた文』『短い文,助詞を含まない文,名詞のみの文など』 が6割も含まれていることがわかった. この6割のものは検出できなくても仕方がないものと見ることができる. これらの6割のものを再現率の計算に含めないものとして再計算を行うと, 表5.5の提案手法の再現率は となる. この再計算をしても再現率が低いことに変わりがなかった.


表: 検出できなかったブログ記事20件に含まれる文体の割合


提案手法の結果を改善する方法として次の方法が考えられる.

方法1
頻度情報を取得するためのデータを,もっと増やす.
方法2
完全に同じ文体(論調)のみで構成されているデータを使用する.

方法1により, 頻度情報を集めたデータに存在しないデータの出力(文書Aの頻度が0,文書Bの頻度が0のもの)を減らすことができる. 現状では,文書Aの頻度が0,文書Bの頻度が0のものの 中にも誤りとして検出したいものが数多く含まれている. 方法1により,それらを検出できるようになる可能性が出てくる.

方法2について議論する. 現在の実験では,新聞とブログを実験に用いている. 厳密には新聞やブログは,様々な文体 (堅めの文章とくだけた文章)が混ざっている. 例えば新聞は紙面により文体が異なっており, 政治,経済,国際面では堅い表現が使われ,コラム,広告,投書,家庭面等ではくだけた(口語的)表現がよく使われる. また,新聞中の引用箇所においてくだけた表現が使われる場合もある. ブログについても,堅めの文章とくだけた文章が混在する. ブログの多くは,日常の出来事をまとめたメモや日記であり,文体を気にしていない,くだけた文章で構成されている. その一方で,ニュースや事件についての転載や,自身の意見や感想をまとめた箇所は堅めの記事と なっている.

今回の実験では全紙面,全記事を使用したために, 堅めの文章とくだけた文章が混在した状態で 頻度を算出していると予想される. 方法2のように,同じ文体の文書のデータを,データAやデータBとして 利用して実験を行うと性能が上昇すると期待される.

ここでは方法1,2を示した.しかし,これだけでは まだ性能の高い誤り検出は困難かもしれない. 性能をあげるための他の方法も考えていきたい.



平成25年10月13日