Silhouette法

事前に複数のクラスター数で複数回データをクラスタリングしたとする. Silhouette法[#!SIL!#]はデータの凝集性(cohesion)a(x)と分離性(sepeartion)b(x)を用いて,最適なクラスター数を決める.まず,データxの凝集性a(x)の計算方法を紹介する.数式(a(x))を式2.1に示す. $\vert C_X\vert$はクラスターXにある単語の総数である. $d_{x,y}$はデータxとデータyのユークリッド距離である.

$\displaystyle a(x) = \frac{1}{\vert C_X\vert-1} \sum^{}_{y \in C_X,x\ne y}d_{x,y}$ (8)

データxの分離性(sepeartion)b(x)の計算方法を紹介する.これはデータxと他のクラスターにあるデータの最小平均距離である.

$\displaystyle b(x) = min_{X \ne Y} \frac{1}{\vert C_Y\vert} \sum^{}_{y \in C_Y}d_{x,y}$ (9)

このデータXの凝集性$a(x)$と分離性$b(x)$を用いて,データのsilhouette係数s(x)を計算する.

$\displaystyle s(x) = \frac{b(x) - a(x)}{max({a(x),b(x))}}$ (10)

すべでのデータに対して,このsilhouette係数の総和を計算して,この総和が最も大きクラスター数を最適なクラスタとして扱う. 地震データの1回目クラスタリング結果の列2を用いて,提案手法を用いて, Silhouette法で最適なクラスター数を計算した結果を表[*]に示す.

Table: 1回目のクラスタリング結果の列1のデータをを用いて作ったテーブル(Silhouette法で最適なクラスター数を計算した)
\scalebox{0.9}{
\begin{tabular}{\vert l\vert l\vert l\vert l\vert l\vert} \hline...
...後9時23分ごろ   &震源,地震 &震度5 &...\\ \hline
\par
\end{tabular}}