next up previous contents
Next: 分類語彙表に基づく情報抽出 Up: 表生成における情報抽出 Previous: 単語クラスタリングに基づく情報抽出   目次

類似度に基づく情報抽出

先行手法では,1つのクラスタを重要項目としていたため,単語の網羅性が低いという問題点があった. そこで,本研究では単語の類似度に着目する.

word2vec [7]は単語を入力することによって,入力した単語のベクトルと近いベクトルの単語(類似した単語)を取得することができる. word2vec [7]を用いることで類似度を算出する. 類似度を算出した例を表4.1に示す.


表 4.1: 類似度算出例
文法 0.611805
0.584067
プログラミング 0.560733
語彙 0.559109
インタプリンタ 0.558252
単語 0.549504
コンパイラ 0.540684
アセンブラ 0.534999
日本語 0.534249
文法 0.519926
LISP 0.516639
プログラム 0.514491
諸語 0.514285
方言 0.513930
....  

4.1では,人手で「言語」と入力すると,「言語」と近いベクトルの単語(類似度の高い単語)の「文法」や「語」を取得することができる.これを利用して人手であらかじめ重要情報と設定した単語との間の類似度の高い単語を算出する.算出して得られた類似度の高い単語を重要項目の単語群とする.(「言語」を重要項目と設定し,「文法」,「プログラミング」を重要項目「言語」の単語群とする)

上記の方法を用いた表生成方法を以下に示す.

  1. 抽出したい事柄を決定する.Wikipediaから,先に決定した抽出したい事柄を含むページを抽出する.
  2. 人手であらかじめ重要情報と設定した単語を重要項目とし,重要項目と設定した単語との間の類似度が高い単語を重要項目の単語群とする.(図4.1の例:「言語」を重要項目,「文法」,「プログラミング」を重要項目「言語」の単語群とする)
  3. 2で得られた結果から,重要項目を表の列とし,抽出したデータのページを表の行とし,ページに出現する重要項目名の単語を該当する行と列の箇所に埋める.



akano hokuto 2018-03-06