最適なクラスター数を計算する方法(岡崎)

岡崎らの研究[#!OKAZAKI!#]で使った最適なクラスター数を計算する方法を紹介する前に,二つの重要な概念を紹介する必要がある.一つ目は情報のカバー率($cover_k$)である.これは表の空欄ではないセルの割合である.数式は式[*]に示す.表Kはクラスター数kで作った表である. $cover_k$はクラスター数kで作った表のカバー率である.

$\displaystyle cover_k = \frac {表Kの空ではないセルの数}{表Kのセルの総数}$ (1)

二つ目は情報の密集度($density_k$)である.情報の密集度($density_k$)とは表の各列にあるデータ間の最小類似度である.数式[*]に示すと. $W_{kij}$はクラスター数kでできた表のi番目の列のj番目のデータの意味である. $\vert C_k\vert$はクラスター数kでできた表の列の数である. $\vert C_{ki}\vert$はクラスター数kでできた表の列のIのベクトルの数である.

$\displaystyle density_{k}=min(cos(W_{kij},W_{kih}))$ (2)


$\displaystyle i=1,2,.......,\vert C_k\vert \ \ \ j,h=1,......,\vert C_{ki}\vert$      

この二つの数値の正規化結果の掛け算の結果をこの表のScoreとして扱う.式2.3に数式を示す.式2.4にxは全部のデータの意味である.

$\displaystyle Score_k = norm(density_k) * norm(cover_k)$ (3)

$\displaystyle norm(x_n)= \frac {x_n-min(x)}{max(x) - min(x)} \\ $ (4)