単語クラスタリングに基づく情報抽出

Next: 類似度に基づく情報抽出 Up: 表生成における情報抽出 Previous: 表生成における情報抽出目次

先行手法 [2]では，Wikipediaから抽出した事柄を含むページのデータのみで単語クラスタリングを行っていたが，本研究ではWikipediaの全ページを利用して単語のクラスタリングする．表生成手順を以下に示す．

抽出したい事柄を決定する．Wikipediaから，先に決定した抽出したい事柄を含むページを抽出する．
word2vec 内の単語のクラスタリングの機能を用いて，Wikipediaの全ページを利用して単語をクラスタリングする．各クラスタにはクラスタ番号をふる．各クラスタには類似した単語群が属することになる．
クラスタリング結果に基づく単語のクラスタを表の列とし，抽出したデータのページを表の行とし，ページに出現するクラスタの単語を該当する行と列の箇所に埋める．クラスタの複数の単語がそのページに出力される場合は，それらすべての単語を表の該当する箇所に埋める．
表の各列にある単語の延べ数(頻度Aと呼ぶ)を求める．頻度Aが大きい列が左にくるように表で列をソートする．頻度Aの少ないクラスタ番号の列を削除する．
表のソート結果により頻度Aの大きいクラスタ番号の列の中から人手で抽出したい事柄に関する情報として重要と思われる列(重要項目)を選ぶ．

akano hokuto 2018-03-06