手順1 | 処理したい文書を収集する.
|
手順2 | 事前準備として, Wikipedia全データを用いて, MeCabでデータを単語レベルで分割する. Word2vecを用いて単語をベクトルに変換する.人手でクラスター数を2,000で設定して,データをk-means法でクラスタリングする.クラスタリングすることで,よく似ている単語が同じクラスターに分類するクラスター数が2,000のクラスタリング表を作成する.具体例を表で示す. |
手順3 | MeCabを用いて,文書データを単語レベルで分割して,名詞単語以外の単語を削除する. |
手順4 | 手順2でできた表と手順3で処理した文書を利用して,重要な情報を結果の表に整理する.具体的なやり方として,クラスタリング結果に基づく単語のクラスターを表の列とし,文章を表の行とし,単語レベルで分割した文書に出現するクラスターの単語を該当する行と列の箇所に埋める.具体例を表で示す.例えば,表の欄1の
の意味は文書番号1そしてクラスター1718に含まれているの意味である.
|
手順5 | そして,人手で重要な列を結果の表から選ぶ.
|