事前に複数のクラスター数で複数回データをクラスタリングしたとする. Silhouette法[#!SIL!#]はデータの凝集性(cohesion)a(x)と分離性(sepeartion)b(x)を用いて,最適なクラスター数を決める.まず,データxの凝集性a(x)の計算方法を紹介する.数式(a(x))を式2.1に示す. はクラスターXにある単語の総数である. はデータxとデータyのユークリッド距離である.
(8) |
データxの分離性(sepeartion)b(x)の計算方法を紹介する.これはデータxと他のクラスターにあるデータの最小平均距離である.
(9) |
このデータXの凝集性と分離性を用いて,データのsilhouette係数s(x)を計算する.
(10) |
すべでのデータに対して,このsilhouette係数の総和を計算して,この総和が最も大きクラスター数を最適なクラスタとして扱う.
地震データの1回目クラスタリング結果の列2を用いて,提案手法を用いて, Silhouette法で最適なクラスター数を計算した結果を表に示す.