手順4 | 手順3でできた列を重要度で並べ替えた表の1番目から6番目の列を選択して,列ごとに処理する.処理方法として,これらの文をMeCabとtermExtractを用いて,単語レベルで分割する.名詞単語以外の単語を削除する.残った単語をFastTextを用いて,ベクトル化する.これらの単語ベクトルを階層クラスタリング法を用いてクラスター数を11,000まで設定して複数回クラスタリングする.クラスタリング結果に基づき,岡崎らの方法, Silhouette法或いはUpperTail法で最適なクラスター数を計算して,最適なクラスター数で作ったクラスタリング結果を選ぶ.手順4を図3.2に示す.
|