岡崎らの研究[#!OKAZAKI!#]で使った最適なクラスター数を計算する方法を紹介する前に,二つの重要な概念を紹介する必要がある.一つ目は情報のカバー率()である.これは表の空欄ではないセルの割合である.数式は式に示す.表Kはクラスター数kで作った表である. はクラスター数kで作った表のカバー率である.
二つ目は情報の密集度()である.情報の密集度()とは表の各列にあるデータ間の最小類似度である.数式に示すと. はクラスター数kでできた表のi番目の列のj番目のデータの意味である. はクラスター数kでできた表の列の数である. はクラスター数kでできた表の列のIのベクトルの数である.
(3) |
(4) |