手法1 : シルエット分析

シルエット分析[7]は，クラスタ内のデータの凝集性とクラスタ間の離散性に基づく指標である．シルエット分析では，クラスタ数ごとに，全てのデータのシルエット係数を計算し，この平均値が最大となるときのクラスタ数を選択する．データ

のシルエット係数

は式5.1で表される．ここで，

はデータ

とデータ

の属するクラスタに含まれる各データとの距離の平均，

はデータ

の属さないクラスタのうち，データ

と最も距離の近いクラスタに含まれる各データとデータ

との距離の平均を表す．ここで，データ

と最も距離の近いクラスタは，データ

とクラスタに含まれる各データとの距離の平均が最小となる場合のクラスタである．また， $max\{a(i),b(i)\}$ は

と

のうち，大きい方の値を表す．

$\begin{displaymath} \scalebox{1}{$\displaystyle s(i) = \frac{b(i)-a(i)}{max\{a(i),b(i)\}} $} \end{displaymath}$

(5.1)