階層クラスタリング

階層クラスタリングは,距離の最も近いクラスタ同士の統合を繰り返すクラスタリング手法である.階層クラスタリングはクラスタ間の距離の定義の違いによっていくつかの手法が存在するが,今回はWard法を用いた.Ward法ではクラスタ$C_1$とクラスタ$C_2$の距離$D(C_1,C_2)$を以下のように定義する.


\begin{displaymath}
D(C_1,C_2) = E(C_1 \cup C_2) - E(C_1) - E(C_2)
\end{displaymath}


\begin{displaymath}
\mathrm{E}(C_i)=\sum_{\mathbf{x}\in C_i} (d(\mathbf{x},\mathbf{c}_i))^2
\end{displaymath}


\begin{displaymath}
c_i = \sum_{\mathbf{x}\in C_i}\mathbf{x}/{\vert C_i\vert}
\end{displaymath}