Upper Tail 法はMojena[8]によって提案された,階層クラスタリングの結果に対し統計的な停止規則に基づいて最適なクラスタ数を決定する手法である.
Upper Tail 法では,まず,クラスタ数が2〜となる場合の,それぞれのクラスタリング結果に対し,基準値を求める.
ここで,はクラスタ数でのクラスタリング結果における各クラスタの重心点間の距離のうち,最小の距離を表す.
次にの値を2からはじめて,以下の条件
を満たさなくなるまでの値を1ずつ増やしていく.停止したときのが最適なクラスタ数として選ばれる.
ここで,とはそれぞれ,全ての基準値の平均と不偏分散の平方根を表す.
の値については,Mojena[8]では,データ数が60〜120の場合,2〜4の値を用いている.
また,志津ら[9]は1群のデータ数が30〜50前後の場合はがよいと報告している.
これらを参考に,今回は1群のデータ数が文書数以下(20以下)になると仮定して,で実験を行う.