next up previous contents
Next: 記載不足の指摘 Up: 表生成における情報抽出 Previous: 類似度に基づく情報抽出   目次

分類語彙表に基づく情報抽出

本研究では分類項目を利用して表生成を行う.表生成を行う際は,分類番号の5桁を利用する.Wikipediaの大学のページを分類語彙表を利用して,表の生成を行った結果を表4.2に示す.また,大学における重要項目を「学科」,「国公立私立」と定義し,重要項目「学科」に対応する分類項目を{学問・…}とし,重要項目「国公立私立」に対応する分類項目を{確立 }とする.{学問・…}に属する単語を重要項目「学科」の単語群とし,{確立 }に属する単語を重要項目「国公立私立」の単語群とする.分類項目{学問・…},{確立 }に属する単語の例を図4.1に示す.

  1. 抽出したい事柄を決定する.Wikipediaから,先に決定した抽出したい事柄を含むページを抽出する.(例:大学)
  2. 人手であらかじめ重要情報と設定した単語を重要項目とする.(重要項目を「学科」「国公立私立」と人手で決める)

  3. 重要項目に対応する5桁の分類項目内の単語を取り出す.(分類項目の例を図4.1に示す.分類項目は{学問・…},{確立 }のことを指す.また,分類項目{学問・…}に属する単語を重要項目「学科」の単語群とする)

    図 4.1: 分類項目例
    1#1

  4. 2の結果に基づく重要項目を表の列とし,抽出したページを表の行とし,抽出したページに出現する重要項目の単語を該当の行と列の箇所に埋める.重 要項目の複数の単語がそのページに出力される場合は,それらすべての単語を表のその箇所 に埋める.(表抽出の結果例を表4.2に示す)


    表 4.2: 分類語義表を使った大学での情報抽出
    2#2




akano hokuto 2018-03-06