next up previous contents
Next: 文章作成支援 Up: 提案手法 Previous: 提案手法   目次

情報抽出

本研究ではword2vecを用いて重要項目の取り出し技術の改良を行う.重要項目の選定方法としてはword2vec内にある「単語のクラスタリング」を利用して,抽出データに関連した重要項目の選定を行う.単語のクラスタリングは類似度の高い単語をまとめて単語のクラスタを作るものである.各クラスタにはクラスタ番号を割り当てる.重要項目の選定を行い,表にまとめる方法を以下に示す.
  1. 抽出したい事柄を決定し,Wikipediaから抽出したい事柄を含むページを抽出する.
  2. word2vec 内の単語のクラスタリングの機能を用いて,抽出したデータ内の単語をクラスタリングする.各クラスタにクラスタ番号をふる.各クラスタには類似した単語群が属することになる.(例えば,1のクラスタ番号のクラスタには地名の単語群が属し,2のクラスタ番号のクラスタには人名の単語群が属する.例を表3.1と表3.2に示す.)


    表 3.1: 1を地名とした単語群
    地名
    京都
    大阪
    宮城


    表 3.2: 2を人名とした単語群
    人名
    伊達政宗
    徳川家康
    豊臣秀吉

  3. クラスタリング結果に基づく単語のクラスタを表の列とし,抽出したデータのページを表の行とし,ページに出現するクラスタの単語を該当する行と列の箇所に埋める.クラスタの複数の単語がそのページに出力される場合は,それらすべての単語を表のその箇所に埋める.
  4. 表の各列にある単語の延べ数(頻度Aと呼ぶ)を求める.頻度Aが大きい列が左にくるように表で列をソートする.頻度Aの少ないクラスタ番号の列を削除する.
  5. 表のソート結果により頻度Aの大きいクラスタ番号の列の中から人手で城に関する情報として重要と思われる列(重要項目)を選ぶ.選ばれなかった列を削除して表を作る.このようにして作成する表の例を表3.3に示す.



     
    表 3.3: 表にまとめたもの
    城名 地名 人名
    大阪城 大阪 豊臣秀吉
    二条城 京都 徳川家康
    仙台城 宮城 伊達政宗 


     



akano hokuto 2018-03-06