最適なクラスター数を計算する方法(岡崎)

岡崎らの研究[#!OKAZAKI!#]で使った最適なクラスター数を計算する方法を紹介する前に,二つの重要な概念を紹介する必要がある.一つ目は情報のカバー率( $cover_k$ )である.これは表の空欄ではないセルの割合である.数式は式に示す.表Kはクラスター数kで作った表である. はクラスター数kで作った表のカバー率である.

$\displaystyle cover_k = \frac {表Kの空ではないセルの数}{表Kのセルの総数}$

(1)

二つ目は情報の密集度( $density_k$ )である.情報の密集度()とは表の各列にあるデータ間の最小類似度である.数式に示すと. $W_{kij}$ はクラスター数kでできた表のi番目の列のj番目のデータの意味である. $\vert C_k\vert$ はクラスター数kでできた表の列の数である. $\vert C_{ki}\vert$ はクラスター数kでできた表の列のIのベクトルの数である.

$\displaystyle density_{k}＝min（cos（W_{kij},W_{kih}））$

(2)

$\displaystyle i＝1,2,.......,\vert C_k\vert \ \ \ j,h＝1,......,\vert C_{ki}\vert$

この二つの数値の正規化結果の掛け算の結果をこの表のScoreとして扱う.式2.3に数式を示す.式2.4にxは全部のデータの意味である.

$\displaystyle Score_k = norm(density_k) * norm(cover_k)$

(3)

$\displaystyle norm(x_n)＝ \frac {x_n-min(x)}{max(x) - min(x)} \\$

(4)