Next: 記載不足の指摘
Up: 表生成における情報抽出
Previous: 類似度に基づく情報抽出
目次
本研究では分類項目を利用して表生成を行う.表生成を行う際は,分類番号の5桁を利用する.Wikipediaの大学のページを分類語彙表を利用して,表の生成を行った結果を表4.2に示す.また,大学における重要項目を「学科」,「国公立私立」と定義し,重要項目「学科」に対応する分類項目を{学問・…}とし,重要項目「国公立私立」に対応する分類項目を{確立 }とする.{学問・…}に属する単語を重要項目「学科」の単語群とし,{確立 }に属する単語を重要項目「国公立私立」の単語群とする.分類項目{学問・…},{確立 }に属する単語の例を図4.1に示す.
- 抽出したい事柄を決定する.Wikipediaから,先に決定した抽出したい事柄を含むページを抽出する.(例:大学)
- 人手であらかじめ重要情報と設定した単語を重要項目とする.(重要項目を「学科」「国公立私立」と人手で決める)
- 重要項目に対応する5桁の分類項目内の単語を取り出す.(分類項目の例を図4.1に示す.分類項目は{学問・…},{確立 }のことを指す.また,分類項目{学問・…}に属する単語を重要項目「学科」の単語群とする)
- 2の結果に基づく重要項目を表の列とし,抽出したページを表の行とし,抽出したページに出現する重要項目の単語を該当の行と列の箇所に埋める.重
要項目の複数の単語がそのページに出力される場合は,それらすべての単語を表のその箇所
に埋める.(表抽出の結果例を表4.2に示す)
akano hokuto
2018-03-06