next up previous contents
Next: 謝辞 Up: honron Previous: 店名の抽出が完全である場合の追加実験   目次

おわりに

本研究では,インターネット掲示板からのお土産情報の抽出というタスクにおい て,掲示板に記述されるレスの宛先を利用することで,複数のレスから情報を集 約する手法をとりいれた.

情報を集約する手法として,正規表現を用いてスレッドをレスごとに分割をした. 次に,レスの宛先を有向グラフとしてデータ構造にした.そして,各レスからの 情報の抽出を行い,有向グラフをたどることで断片的な情報を集約した.

掲示板の1つである「2ちゃんねる」を対象とした実験において,集約を行わない場合の適合率0.22,再現率0.50,$ F$ 値0.27に比べ,集約を行うことで適合率0.24,再現率0.55,$ F$ 値0.30と性能の向上を確認することができた.

残された問題として,過剰に3つ組が生成される問題があげられる.具体的には, 集約により3つ組が増大する問題および,言語解析力の問題があげられた. 今後の課題は,過剰に出力された3つ組を除去することで性能を向上させることであ る.



Subsections

2013-02-23