手順4:各クラスタ数でのクラスタリング

階層クラスタリングによって得られた各クラスタ数でのクラスタリング結果を基に表に整理する.ここで,クラスタリングの際に,情報がどの文書に含まれていたかは考慮されないため,1つのセルに複数の情報が含まれる場合がある.クラスタ数7#7での表の埋まり具合を式(2.1)から,情報の密集度を式(2.2)からそれぞれ求める.8#8はクラスタ数7#7での表の9#9番目の列に含まれる文の総数,10#10はクラスタ数7#7での表の9#9番目の列の11#11番目の文のベクトル,12#12はクラスタ数7#7での表の列の総数,13#1314#1415#15のコサイン類似度を求める関数を表す.
16#16 (1)


17#17     (2)
18#18      

ここで,全てのクラスタ数での19#19の集合を20#2021#21を集合20#20の最大値,22#22は集合20#20の最小値とする. 各クラスタでの19#19を式(2.3)で23#23の範囲に正規化する.

24#24 (3)

同様に,全てのクラスタ数での25#25の集合を26#2627#27を集合26#26の最大値,28#28は集合26#26の最小値とする. 各クラスタでの25#25を式(2.4)で23#23の範囲に正規化する.

29#29 (4)

クラスタ数7#7での表の30#30を式(2.5)より求める.30#30が最大となるときのクラスタ数7#7を最適なクラスタ数として採用する.

31#31 (5)