おわりに

過去に,$X$-means法を用いて,複数文書に含まれる文の情報を,表に整理する手法を提案した. $X$-means法は$BIC$に基づいて最適なクラスタ数を推定するクラスタリング手法である. しかし,$X$-means法によって推定されたクラスタ数(表の列数)は最適なクラスタ数に比べ小さい傾向にあり, この結果を整理した表は情報が1つの列にまとまりすぎており,表の精度が低いという問題があった.

そこで,本研究ではこの問題を改善するために,文の情報を分類した階層クラスタリングの結果に対し,表の埋まり具合と情報の密集度のバランスを最適にする方法でクラスタ数を推定し,この結果を表に整理する手法を提案した.

提案手法では,まず,情報を階層クラスタリングでクラスタリングする. 次に,階層クラスタリングのクラスタ数が$1〜n$までの結果について,これを整理した表の,表の埋まり具合と,整理された情報の密集度を求める.この二つの指標のバランスが最適になるときのクラスタ数を最適なクラスタ数と推定する. 最後に推定されたクラスタ数の結果を表に整理する. 本研究では以上の手法により,表の精度の向上を試みた.. 15種類の複数文書を用いた実験の結果,従来手法において$X$-means法により推定されたクラスタ数が小さい傾向にあった問題は提案手法では改善され,より最適なクラスタ数に近づいたことが確認できた. これにより,従来手法では表の評価結果の平均が0.43だったが,提案手法では0.65と向上し,提案手法の有効性が確認できた.

一方で,最適なクラスタ数が推定できたとしても表の評価結果が0.70に届かない場合があるなど,クラスタ数の推定方法を改善するだけでは大幅な表の精度の向上は見込めないことも明らかになった. 今後,表の精度を向上させていくには,階層クラスタリングによる分類の精度を上げる必要があると考えられる. よって,階層クラスタリングの分類の精度を上げる方法の検討が今後の課題である.