シルエット分析を用いた階層クラスタリングの考察

シルエット分析を用いた階層クラスタリングの評価結果は,平均が0.60と従来手法を上回ったものの,提案手法よりは低い値となった. 特に新製品記事(エアコン)での評価結果が0.18と非常に低かった. 新製品記事(エアコン)は1文あたりの平均文字数が62.3文字と15種類の文書の中で最も多い. 本研究では文ベクトルを含まれる単語ベクトルの総和として算出していることから,文字数の多い文では,文をよく表す重要な単語が他の多くの単語に埋もれてしまい,精度の低い文のベクトルが算出されてしまう. シルエット分析ではクラスタ内のデータの凝集性とクラスタ間の離散性が考慮されるがいずれも文のベクトルを基に計算されるため, このような精度の低い文のベクトルに大きく影響され低い評価結果となったと考えられる. 一方で,1文あたりの平均文字数が少ない文書では良い評価結果が得られている. よって,シルエット分析を用いた方法は簡潔な文のみを含む文書に対しては有効であると思われる.