next up previous contents
Next: 目次 Up: soturon Previous: soturon   目次

概要

文章に重要な情報が記載されていない場合,読者の知りたい情報が欠落しているため読みにくい文章となる. そこで,書き漏れのある文章であることを指摘したり,書き漏れのある文章に書き足すべき情報を提示する技術があれば文章の修正がしやすくなると考える.このような文章修正支援の研究はいくつかある.赤野[2]の研究ではword2vec[5]によるクラスタリングを用いてWikipediaのデータから重要な情報を抽出し表にまとめた.表に空欄箇所があった場合,情報が欠けている記載欠落箇所と判定し,記載欠落箇所をユーザに知らせて記載の追加を促すことで文章修正支援を行った.しかし,先行研究では表の記載欠落箇所の指摘は行うものの,記載欠落箇所に埋めるべき情報をユーザに提示する手法の検討は行われていない.

そこで本研究では,検索エンジンを用いて表の記載欠落箇所に適切な情報を埋める研究を行う. 記載欠落箇所に埋められた情報を参考にしながら文章の書き足しを行ってもらうことで書き漏れのある文章の修正支援に役立つと考える. 具体的には検索エンジンによりWeb文書を取得し,Web文書から重要な情報を抽出して表を作成する. 表には単語の出現した記事数の上位1位から5位までを出力して,5位正解率で情報抽出と記載欠落箇所の補完の性能を評価する. 表に出力した5個の単語をユーザに見せただけではどれが正解かわからないが,5個の単語を取り出した記事も見せることによってどれが正解かわかるようになり,ユーザも単語を5個見せられても困らないので文章の修正支援に役立つ. 5個の中に正解があれば役に立つため,5位正解率によって評価を行った.また5位正解率ならば1位正解率で精度が低くても,1位正解率よりも高い精度を出すことができる.

実験の結果,Web文書からの情報抽出の実験において5位正解率で正解率を求めたところ,固有表現抽出を用いた情報抽出の実験では0.71で,上位下位知識を用いた情報抽出の実験では0.70で,クラスタリングを用いた情報抽出の実験では0.66であった. また表の記載欠落箇所のみでの情報抽出の実験において5位正解率で正解率を求めたところ,固有表現抽出では0.45,上位下位知識では0.45,クラスタリングでは0.44であった.



root 2017-03-04