本研究で最適なクラスター数と列の重要度を計算する際に岡崎らの研究成果が必要である.岡崎らの研究[#!OKAZAKI!#]では文レベルで重要な情報を文書から抽出する.岡崎らの研究[#!OKAZAKI!#]では表の埋まり具合と情報の密集度のバランスで最適なクラスター数を推定して,クラスターの重要度も表の埋まり具合と情報の密集度で計算する.最適なクラスター数とクラスターの重要度の情報を用いて,クラスタリングの結果を表に整理する.手順を以下で示す.
手順1 | 複数文書に含まれる文を句点区切りで抽出する.
|
手順2 | 文のベクトルを計算する.
|
手順3 | 人手でクラスター数を1から1000まで設定して,文ベクトルを基に文を階層クラスタリングで複数回クラスタリングする.
|
手順4 | 手順3の結果に基づいて,行を文書,クラスターを列とする表の埋まり具合と情報の密集度のバランスを用いて,これらの複数のクラスタリングの表の中から最適なクラスター数の表を選択する.
|
手順5 | 手順4で得られた表の列(クラスター)の重要度を計算して,表の列を重要度で並べ替える.地震のデータでできた結果の表を表と表に示す.
|