一つ目は文のベクトルの精度を高めることである. 現在,文のベクトルを計算する際,文中の名詞の単語ベクトルを同じ重みで足し合わせているが,これを重要な単語ほど重みを大きくするなどしてベクトルの精度を高めることが考えられる.
二つ目は階層クラスタリングによって得られた樹形図を異なる距離でカットすることである. 今回の実験では階層クラスタリングでのクラスタ数ごとのクラスタリング結果を得るために樹形図を水平にカットする方法を用いている. 階層クラスタリングでは,類似した(距離の近い)文から順にクラスタにまとめられるため,字面の似た文は樹形図の下の階層で,すでに同じクラスタに統合されていると考えられる. 一方で,同じ種類でも字面の似ていない文は樹形図の比較的上の階層で統合されると考えられる. このように,同種の文同士の距離が文の種類ごとに大きく異なる場合は,図5.1のように樹形図を距離に基づき水平にカットする方法では対応できない. この問題を解決するには,図5.2のように,樹形図を異なる距離に基づいてカットする必要がある.