next up previous contents
Next: クラスタリングに基づく手法 Up: 文書内における重要情報の抽出 Previous: 固有表現抽出に基づく手法   目次


上位下位知識に基づく手法

上位下位知識を用いてWikipediaの城ページで下位語の頻度分析を行い,頻度が高かった下位語の上位語を重要項目とする. Wikipediaの城ページから重要項目の下位語を取り出し,表にまとめる. 固有表現抽出を用いた方法では抽出できなかった情報を抽出できる可能性がある. 本研究では「県名」「時代」「地名」「元号」の4つの上位語を重要項目として選定して,表の行を城名,表の列を重要項目として表にまとめる. 表には城データの中で単語が出現した頻度の多い上位5つの単語を出力する.

Wikipediaの記事から「県名」「時代」「地名」「元号」を抽出し表にまとめた例を図[*]に示す. 図[*]はWikipediaの根添城のページから「県名」「時代」「地名」「元号」の下位語となるものを抽出し,表にまとめたものを示している. 根添城の記事中に「県名」の下位語である「宮城県」,「地名」の下位語である「仙台」があるため,これらの下位語が抽出されて表に出力される. 図[*]では根添城の「県名」が「宮城県」,「地名」が「仙台」として情報抽出されているが,「時代」「元号」は空白になっている. このような空白がある場合は,Wikipediaのページに「時代」や「元号」に関する情報が記載されていないということであり,空白になっている箇所を埋めるように文章の書き足しを行えばより読みやすい文章になる. そこで本研究では[*]節のような手法による文章の修正支援を提案する.

図: Wikipediaの記事に上位下位関係抽出を使用した結果の例
2#2



root 2017-03-04