列数の推定精度の改善についての考察

提案手法によって推定されたクラスタ数と，階層クラスタリングにおける最適なクラスタ数の近さを調査した．具体的には，階層クラスタリングの各クラスタ数でのクラスタリング結果を整理した表を全て評価し，最良の評価結果となるときのクラスタ数を調べ，これと比較した．結果を表5.4に示す．

表: 階層クラスタリングでの最適なクラスタ数と表の評価結果
$\scalebox{1}{ \begin{tabular}{\vert l\vert r\vert c\vert r\vert c\vert} \hline... ...hline Wikipedia(野球チーム) & 17 & 0.74 & 7 & 0.51\\ \hline \end{tabular} }$

結果を見ると，新製品記事(ロボット掃除機)や新製品記事(カメラ)，新聞記事(リコール)での推定されたクラスタ数が最適なクラスタ数に比べ非常に小さい値となっている．これらの複数文書は表5.5のように，いずれも正解の表に占める空欄の割合が多い．そのため，提案手法において表の埋まり具合を過度に考慮したことが悪く働き，このように推定されるクラスタ数が大幅に少なくなったと考えられる．この問題を解消するには，表の埋まり具合と表の密集度の重みを文書に応じて調整する必要がある．具体的には複数文書の文書間の類似度を求めるなどして表の空欄の割合を推定し，これを基に表の埋まり具合と密集度の重みを調整することで，階層クラスタリングにおける最適なクラスタ数により近づくと考えられる．

表: 各複数文書の正解の表に占める空欄の割合
$\scalebox{1}{ \begin{tabular}{\vert l\vert c\vert} \hline 複数文書 & 空欄の割... ...a(山) & 0.56\\ \hline Wikipedia(野球チーム) & 0.58\\ \hline \end{tabular} }$