手法1 : シルエット分析

シルエット分析[7]は,クラスタ内のデータの凝集性とクラスタ間の離散性に基づく指標である. シルエット分析では,クラスタ数ごとに,全てのデータのシルエット係数を計算し,この平均値が最大となるときのクラスタ数を選択する. データ$i$のシルエット係数$s(i)$は式5.1で表される. ここで,$a(i)$はデータ$i$とデータ$i$の属するクラスタに含まれる各データとの距離の平均, $b(i)$はデータ$i$の属さないクラスタのうち,データ$i$と最も距離の近いクラスタに含まれる各データとデータ$i$との距離の平均を表す. ここで,データ$i$と最も距離の近いクラスタは,データ$i$とクラスタに含まれる各データとの距離の平均が最小となる場合のクラスタである. また, $max\{a(i),b(i)\}$$a(i)$$b(i)$のうち,大きい方の値を表す.
\begin{displaymath}
\scalebox{1}{$\displaystyle
s(i) = \frac{b(i)-a(i)}{max\{a(i),b(i)\}}
$}
\end{displaymath} (5.1)