提案手法の手順

従来手法の問題点を解決するため,本研究ではクラスタリングを２回(１回目は文レベルでクラスタリング, 2回目は単語レベルでクラスタリング)して,岡崎らの研究[#!OKAZAKI!#]で用いられる最適なクラスター数を計算する方法とSilhouette法或いはUpperTail法で最適なクラスタ数を推定し,最適なクラスター数で作った表を最適な表とし,最適な表の各列の重要度を計算して,表にある全ての列を重要度で並べ替える. 提案手法の手順を以下に示す.

手順1	複数文書に含まれる文を句点区切りで抽出する.
手順2	文のベクトルを計算する.
手順3	節の岡崎らの方法を用いて,文ベクトルをクラスタリングする.結果を表に整理する.一部の結果の表を表と表に示す.手順1 $\sim$ 順3を図3.1に示す.
手順4	手順３でできた列を重要度で並べ替えた表の1番目から6番目の列を選択して,列ごとに処理する.処理方法として,これらの文をMeCabとtermExtractを用いて,単語レベルで分割する.名詞単語以外の単語を削除する.残った単語をFastTextを用いて,ベクトル化する.これらの単語ベクトルを階層クラスタリング法を用いてクラスター数を1 $\sim$ 1,000まで設定して複数回クラスタリングする.クラスタリング結果に基づき,岡崎らの方法, Silhouette法或いはUpperTail法で最適なクラスター数を計算して,最適なクラスター数で作ったクラスタリング結果を選ぶ.手順4を図3.2に示す.
手順5	手順4で採用されたクラスタリングの結果を，行を文書，列をクラスタとする表に整理する.そして,従来手法で紹介した列の重要度の計算方法を用いて,列の重要度を計算して,表の列を重要度で並べ替える.地震データを用いて,結果の一部を表と表に示す.

**Figure:** 手順１〜手順３(１回目クラスタリング)の図
$\includegraphics[scale=0.5]{.././okazaki_1.png}$

**Figure:** 手順４〜手順５(2回目クラスタリング)の図
$\includegraphics[scale=0.5]{.././my_2.png}$

**Table:** １回目のクラスタリング結果の列１のデータをを用いて作った出力テーブル(岡崎らの方法で最適なクラスター数を計算した)
$\scalebox{1.0}{ \begin{tabular}{\vert l\vert l\vert l\vert l\vert l\vert} \hline... ...��&マグニチュード　 &10 キロ &5・3 &...\\ \hline \par \end{tabular}}$

**Table:** １回目のクラスタリング結果の列２のデータをを用いて作った出力テーブル(岡崎らの方法で最適なクラスター数を計算した)
$\scalebox{0.9}{ \begin{tabular}{\vert l\vert l\vert l\vert l\vert l\vert} \hline... ...後9時23分ごろ　 &震源,地震 &震度5 &...\\ \hline \par \end{tabular}}$