手法2 : Upper Tail 法

Upper Tail 法はMojena[8]によって提案された,階層クラスタリングの結果に対し統計的な停止規則に基づいて最適なクラスタ数を決定する手法である. Upper Tail 法では,まず,クラスタ数$j$が2〜$N−1$となる場合の,それぞれのクラスタリング結果に対し,基準値$\alpha_j$を求める. ここで,$\alpha_j$はクラスタ数$j$でのクラスタリング結果における各クラスタの重心点間の距離のうち,最小の距離を表す. 次に$j$の値を2からはじめて,以下の条件

\begin{displaymath}
\alpha_j \leq \bar{\alpha} + ks_\alpha
\end{displaymath}

を満たさなくなるまで$j$の値を1ずつ増やしていく.停止したときの$j$が最適なクラスタ数として選ばれる. ここで,$\bar{\alpha}$$s_\alpha$はそれぞれ,全ての基準値$\alpha_j$の平均と不偏分散の平方根を表す. $k$の値については,Mojena[8]では,データ数が60〜120の場合,2〜4の値を用いている. また,志津ら[9]は1群のデータ数が30〜50前後の場合は$k=3$がよいと報告している. これらを参考に,今回は1群のデータ数が文書数以下(20以下)になると仮定して,$k=1$で実験を行う.