検索エンジンを用いた表の補完方法として,まず城名を検索クエリとして検索エンジンに入力し50件の記事を取得する.
取得した記事50件をまとめた文書に対し節や
節や
節の手法を用いて城に関する重要情報の抽出を行う.
抽出した重要情報のうち,記事50件の中で単語が出現した記事の数が多い上位5つの単語を表にまとめる.
作成した表をユーザに提示することで文章の修正に役立つ.
Web文書から重要情報を抽出し表にまとめる例を図
に示す.
図
ではWeb文書からの情報抽出のために上位下位知識に基づく手法を用いている.
根添城を検索クエリとして検索エンジンに入力し取得したWeb文書から「県名」「時代」「地名」「元号」の下位語となるものを抽出し,表にまとめたものを示している.
図
中の文章は取得した50件の記事の中からランダムに選んだ記事1つを抜粋したものである.
記事中に「県名」の下位語である「宮城県」,「時代」の下位語である「平安時代」,「地名」の下位語である「仙台」,「元号」の下位語である「永承」があるため,これらの下位語が抽出されて表に出力される.
図
と見比べると,図
では表に出力できなかった「時代」「元号」を図
では出力できている.
このようにWikipediaに記載されていなかった重要情報をWeb文書から取得することができるため,文章の修正支援に役立てることができる.