岡崎らの研究[#!OKAZAKI!#]で使った最適なクラスター数を計算する方法を紹介する前に,二つの重要な概念を紹介する必要がある.一つ目は情報のカバー率()である.これは表の空欄ではないセルの割合である.数式は式
に示す.表Kはクラスター数kで作った表である.
はクラスター数kで作った表のカバー率である.
二つ目は情報の密集度()である.情報の密集度(
)とは表の各列にあるデータ間の最小類似度である.数式
に示すと.
はクラスター数kでできた表のi番目の列のj番目のデータの意味である.
はクラスター数kでできた表の列の数である.
はクラスター数kでできた表の列のIのベクトルの数である.
(3) |
(4) |