クラスタリング結果を整理した表の列には,表2.1の列1のように関連する文だけで構成される重要度の高い列もあれば,列2のように関連しない文が混在した重要度の低い列もある.
まず密集率について,番目の列の密集率を式2.1のように定める.
ここで,は番目の列に含まれる文の総数であり,は番目の列に含まれる番目の文のベクトルであり, は番目の列に含まれる文のベクトルの平均である.
式2.1で求めた列の密集率を,式2.2を用いて,最小値が0,最大値が1になるように正規化する.
ここで,は番目の列の正規化された列の密集率であり,は列の総数である.
(2.3) |
(2.4) |
次に文書カバー率について,番目の列の文書カバー率を式2.5のように定める.
は番目の列において文を抽出できた文書の数であり,は文書の総数である.
式2.5で求めた文書カバー率を,式2.6を用いて,最小値が0,最大値が1になるように正規化する.
ここで,は番目の列の正規化された文書カバー率であり,は列の総数である
(2.7) |
(2.8) |
番目の列の重要度を式2.9のように定義する.