クラスタリングに基づく手法

Next: 検索エンジンを用いた情報抽出 Up: 文書内における重要情報の抽出 Previous: 上位下位知識に基づく手法目次

クラスタリングに基づく手法

word2vec内のツールであるクラスタリングを用いてWikipediaの城ページから重要項目の抽出を行う．word2vec内にある「単語のクラスタリング」を利用して，抽出データに関した重要項目の選定を行う．単語のクラスタリングは類似度の高い単語をまとめて単語のクラスタを作るものである．各クラスタにはクラスタ番号を割り当ててその中から人手で重要項目の選定を行い，表にまとめる．表にまとめる方法を以下に示す．本研究ではクラスタリングを行った結果から人手で選んだクラスタ3つの「クラスタ401」，「クラスタ407」，「クラスタ765」を重要項目として，表の行を城名，表の列を重要項目として表にまとめる．「クラスタ401」は戦い関係の情報がまとまったクラスタで，「クラスタ407」は城の造りの情報がまとまったクラスタで，「クラスタ765」は交通関係の情報がまとまったクラスタである．

抽出したい事柄を決定し，Wikipediaから抽出したい事柄を含むページを抽出する．
word2vec内の単語のクラスタリングの機能を用いて，抽出したデータ内の単語をクラスタリングする．各クラスタにクラスタ番号をふる．各クラスタには類似した単語群が属することになる．(例えば，1のクラスタ番号のクラスタには地名の単語群が属し，2のクラスタ番号のクラスタには人名の単語群が属する．例を表と表に示す．)

1を地名とした単語群
2を人名とした単語群

表: 1を地名とした単語群

地名

京都

大阪

宮城

表: 2を人名とした単語群

人名

伊達政宗

徳川家康

豊臣秀吉
クラスタリング結果に基づく単語のクラスタを表の列とし，抽出したデータのページを表の行とし，ページに出現するクラスタの単語を該当する行と列の箇所に埋める．クラスタの複数の単語がそのページに出力される場合は，それらすべての単語を表のその箇所に埋める．
表の各列にある単語の延べ数(頻度Aと呼ぶ)を求める．頻度Aが大きい列が左にくるように表で列をソートする．頻度Aの少ないクラスタ番号の列を削除する．
表のソート結果により頻度Aの大きいクラスタ番号の列の中から人手で城に関する情報として重要と思われる列(重要項目)を選ぶ．選ばれなかった列を削除して表を作る．このようにして作成する表の例を表に示す．

　
表: 表にまとめたもの
城名地名人名

大阪城大阪豊臣秀吉

二条城京都徳川家康

仙台城宮城伊達政宗

表: 表にまとめたもの
城名	地名	人名
大阪城	大阪	豊臣秀吉
二条城	京都	徳川家康
仙台城	宮城	伊達政宗

root 2017-03-04