next up previous contents
Next: 上位下位知識に基づく手法 Up: 文書内における重要情報の抽出 Previous: 文書内における重要情報の抽出   目次


固有表現抽出に基づく手法

Wikipediaの城ページからCaboChaを用いて,「地名」「人名」「組織名」に分類される表現を抽出し,表の行を城名,表の列を重要項目として表にまとめる. 表には城データの中で単語が出現した頻度の多い上位5つの単語を出力する. この手法では城に関わる人物や城の所在地などの重要情報が抽出される. Wikipediaの記事から「地名」「人名」「組織名」を抽出し表にまとめた例を図[*]に示す. 図[*]はWikipediaの根添城のページから「地名」「人名」「組織名」の表現を抽出し,表にまとめたものを示している. 根添城の記事中に「地名」の表現である「宮城県」,「人名」の表現である「源頼義」,「組織名」の表現である「坪沼八幡神社」があるため,これらの表現が抽出されて表に出力される.

図: Wikipediaの記事に固有表現抽出を使用した結果の例
1#1



root 2017-03-04