表の精度の向上に向けた課題

一方で,表5.4から,最適なクラスタ数が選ばれたとしても評価結果が0.70に届いていない場合があり,クラスタ数の推定方法を改善するだけでは大幅な表の精度の向上は見込めない. 今後,表の精度を向上させていくには,階層クラスタリングによる分類の精度を上げる必要がある. 分類の精度を上げるために考えられることは二つある.

一つ目は文のベクトルの精度を高めることである. 現在,文のベクトルを計算する際,文中の名詞の単語ベクトルを同じ重みで足し合わせているが,これを重要な単語ほど重みを大きくするなどしてベクトルの精度を高めることが考えられる.

二つ目は階層クラスタリングによって得られた樹形図を異なる距離でカットすることである. 今回の実験では階層クラスタリングでのクラスタ数ごとのクラスタリング結果を得るために樹形図を水平にカットする方法を用いている. 階層クラスタリングでは,類似した(距離の近い)文から順にクラスタにまとめられるため,字面の似た文は樹形図の下の階層で,すでに同じクラスタに統合されていると考えられる. 一方で,同じ種類でも字面の似ていない文は樹形図の比較的上の階層で統合されると考えられる. このように,同種の文同士の距離が文の種類ごとに大きく異なる場合は,図5.1のように樹形図を距離に基づき水平にカットする方法では対応できない. この問題を解決するには,図5.2のように,樹形図を異なる距離に基づいてカットする必要がある.

図: 樹形図を水平にカットする例
\includegraphics[clip,width=6cm]{.././EPS/tree_cut_mondai1.eps}
図: 樹形図を異なる距離でカットする例
\includegraphics[clip,width=6cm]{.././EPS/tree_cut_mondai2.eps}