提案手法の手順

従来手法の問題点を解決するため,本研究ではクラスタリングを2回(1回目は文レベルでクラスタリング, 2回目は単語レベルでクラスタリング)して,岡崎らの研究[#!OKAZAKI!#]で用いられる最適なクラスター数を計算する方法とSilhouette法或いはUpperTail法で最適なクラスタ数を推定し,最適なクラスター数で作った表を最適な表とし,最適な表の各列の重要度を計算して,表にある全ての列を重要度で並べ替える. 提案手法の手順を以下に示す.
手順1  複数文書に含まれる文を句点区切りで抽出する.
手順2  文のベクトルを計算する.
手順3  [*]節の岡崎らの方法を用いて,文ベクトルをクラスタリングする.結果を表に整理する.一部の結果の表を表[*]と表[*]に示す.手順1$\sim$順3を図3.1に示す.
手順4  手順3でできた列を重要度で並べ替えた表の1番目から6番目の列を選択して,列ごとに処理する.処理方法として,これらの文をMeCabとtermExtractを用いて,単語レベルで分割する.名詞単語以外の単語を削除する.残った単語をFastTextを用いて,ベクトル化する.これらの単語ベクトルを階層クラスタリング法を用いてクラスター数を1$\sim$1,000まで設定して複数回クラスタリングする.クラスタリング結果に基づき,岡崎らの方法, Silhouette法或いはUpperTail法で最適なクラスター数を計算して,最適なクラスター数で作ったクラスタリング結果を選ぶ.手順4を図3.2に示す.
手順5  手順4で採用されたクラスタリングの結果を,行を文書,列をクラスタとする表に整理する.そして,従来手法[*]で紹介した列の重要度の計算方法を用いて,列の重要度を計算して,表の列を重要度で並べ替える.地震データを用いて,結果の一部を表[*]と表[*]に示す.

Figure: 手順1〜手順3(1回目クラスタリング)の図
\includegraphics[scale=0.5]{.././okazaki_1.png}

Figure: 手順4〜手順5(2回目クラスタリング)の図
\includegraphics[scale=0.5]{.././my_2.png}


Table: 1回目のクラスタリング結果の列1のデータをを用いて作った出力テーブル(岡崎らの方法で最適なクラスター数を計算した)
\scalebox{1.0}{
\begin{tabular}{\vert l\vert l\vert l\vert l\vert l\vert} \hline...
...&マグニチュード   &10 キロ &5・3 &...\\ \hline
\par
\end{tabular}}



Table: 1回目のクラスタリング結果の列2のデータをを用いて作った出力テーブル(岡崎らの方法で最適なクラスター数を計算した)
\scalebox{0.9}{
\begin{tabular}{\vert l\vert l\vert l\vert l\vert l\vert} \hline...
...後9時23分ごろ   &震源,地震 &震度5 &...\\ \hline
\par
\end{tabular}}