従来手法1の手順(赤野)

過去の研究の文の情報を整理する方法の手順を以下に示す.  
手順1  処理したい文書を収集する.
手順2  事前準備として, Wikipedia全データを用いて, MeCabでデータを単語レベルで分割する. Word2vecを用いて単語をベクトルに変換する.人手でクラスター数を2,000で設定して,データをk-means法でクラスタリングする.クラスタリングすることで,よく似ている単語が同じクラスターに分類するクラスター数が2,000のクラスタリング表を作成する.具体例を表[*]で示す. 
手順3  MeCabを用いて,文書データを単語レベルで分割して,名詞単語以外の単語を削除する.
手順4  手順2でできた表と手順3で処理した文書を利用して,重要な情報を結果の表に整理する.具体的なやり方として,クラスタリング結果に基づく単語のクラスターを表の列とし,文章を表の行とし,単語レベルで分割した文書に出現するクラスターの単語を該当する行と列の箇所に埋める.具体例を表[*]で示す.例えば,表[*]の欄1の $(マグニチュード, 地震)$の意味は文書番号1そしてクラスター1718に含まれているの意味である.
手順5  そして,人手で重要な列を結果の表から選ぶ.