クラスタリング結果には表3.1の(a)ように関連する文だけで構成される密集率の高いクラスタもあれば,表3.1の(b)のように関連性のない文で構成される密集率の低いクラスタもある.
密集率の高いクラスタは重要であると考えられる.
よって,番目のクラスタの密集率を式3.1のように定める.
ここで,は番目のクラスタに含まれる文の総数であり,は番目のクラスタに含まれる番目の文のベクトルであり, は番目のクラスタに含まれる文のベクトルの平均である.
密集率の計算の例を図3.4に示す.
式3.1で求めたクラスタの密集率を,式3.2を用いて,最小値が0,最大値が1になるように正規化する.
ここで,は番目のクラスタの正規化されたクラスタの密集率であり,はクラスタの総数である.
(3.3) |
(3.4) |
多くの文書の情報を含むクラスタほど重要であると考えられる.
よって,番目の文書カバー率を式3.5のように定める.
は番目のクラスタにおいて文を抽出できた文書の数であり,は文書の総数である.
式3.5で求めた文書カバー率を,式3.6を用いて,最小値が0,最大値が1になるように正規化する.
ここで,は番目のクラスタの正規化された文書カバー率であり,はクラスタの総数である
(3.7) |
(3.8) |
番目のクラスタの重要度を式3.9のように定義する.