手順5:クラスタリング結果を表に整理

2.1節の手順4におけるクラスタごとの重要度の計算方法を説明する.クラスタリング結果には表2.2.1のように関連する文だけで構成される密集率の高いクラスタもあれば,表2.2.2のように関連性のない文で構成される密集率の低いクラスタもある.密集率の高いクラスタは重要であると考えられる.よって, 7#7番目のクラスタの密集率32#32を式2.6のように定める.ここで, 33#337#7番目のクラスタに含まれる文の総数であり, 34#347#7番目のクラスタに含まれる35#35番目の文のベクトルであり, 36#367#7番目のクラスタに含まれる文のベクトルの平均である.密集率の計算の例を図2.3に示す.


37#37 (6)


Table 2.2.1: 文の密集率が高いクラスタの例



  クラスタ1 
文書1 重量は約130g
文書2 重量は125g
文書3 重量は140g
文書4 重量は138g

Table 2.2.2: 文の密集率が低いクラスタの例



  クラスタ2 
文書1 重量は約130g
文書2 価格は49800円
文書3 メモリーは4GB
文書4 12月9日に発売予定

Figure 2.3: 密集率の計算の例
38#38  

式2.6で求めたクラスタの密集率32#32を,式2.7を用いて,最小値が0,最大値が1になるように正規化する.ここで, 39#397#7番目のクラスタの正規化されたクラスタの密集率であり, 40#40はクラスタの総数である.


41#41 (7)


42#42 (8)


43#43 (9)

多くの文書の情報を含むクラスタほど重要であると考えられる.よって, 7#7番目の文書カバー率44#44を式2.10のように定める. 45#457#7番目のクラスタにおいて文を抽出できた文書の数であり, 46#46は文書の総数である.


47#47 (10)

式2.10で求めた文書カバー率44#44を,式2.6を用いて,最小値が0,最大値が1になるように正規化する.ここで, 48#487#7番目のクラスタの正規化された文書カバー率であり, 40#40はクラスタの総数である.


49#49 (11)


50#50 (12)


51#51 (13)

7#7番目のクラスタの重要度52#52を式2.14のように定義する.


53#53 (14)