next up previous contents
Next: 実験環境 Up: 提案手法 Previous: クラスタリングに基づく手法   目次


検索エンジンを用いた情報抽出

固有表現抽出に基づく手法と上位下位知識に基づく手法とクラスタリングに基づく手法の3手法により作成した表に空白があった場合,対応する城ページにはその重要情報が記載されていない. そこで,検索エンジンを用いて表の空白を埋めるべき情報を取得し,表を補完する.

検索エンジンを用いた表の補完方法として,まず城名を検索クエリとして検索エンジンに入力し50件の記事を取得する. 取得した記事50件をまとめた文書に対し[*]節や[*]節や[*]節の手法を用いて城に関する重要情報の抽出を行う. 抽出した重要情報のうち,記事50件の中で単語が出現した記事の数が多い上位5つの単語を表にまとめる. 作成した表をユーザに提示することで文章の修正に役立つ. Web文書から重要情報を抽出し表にまとめる例を図[*]に示す. 図[*]ではWeb文書からの情報抽出のために上位下位知識に基づく手法を用いている. 根添城を検索クエリとして検索エンジンに入力し取得したWeb文書から「県名」「時代」「地名」「元号」の下位語となるものを抽出し,表にまとめたものを示している. 図[*]中の文章は取得した50件の記事の中からランダムに選んだ記事1つを抜粋したものである. 記事中に「県名」の下位語である「宮城県」,「時代」の下位語である「平安時代」,「地名」の下位語である「仙台」,「元号」の下位語である「永承」があるため,これらの下位語が抽出されて表に出力される. 図[*]と見比べると,図[*]では表に出力できなかった「時代」「元号」を図[*]では出力できている. このようにWikipediaに記載されていなかった重要情報をWeb文書から取得することができるため,文章の修正支援に役立てることができる.

図: Webの記事に上位下位関係抽出を使用した結果の例
3#3



root 2017-03-04