しかし、従来のベクトル空間法では、多数の単語をベクトルの基底に用いるため、類似度計算のコスト、ベクトルのスパース性により、文書間の類似性が判定できない恐れがあることなどが問題とされており、 法[1]などの頻度統計を利用して、文書データベース中の重要語を基底に選択する方法が一般的である。 また、LSI法[2]など、基底となる単語が互いの独立性の高くなるようにベクトル空間の基底軸を変換する方法が提案されているが、変換のための計算コストが高い。 これらに対して、本論文はベクトル空間の基底となる単語を日本語語彙大系[3]に定義されている単語意味属性(2,710種)に置き換える方法を提案する。
本方式は、文書間の意味的な類似性を単語の意味で評価するため、従来の基底となる単語のみの評価に比べて、表記の揺れに強く、すべての単語が検索に寄与するため、検索漏れの改善が期待できる。 また、意味属性相互の意味的な上下関係を利用すれば、検索精度をあまり落さずにベクトルの基底数を削減することができ、容易に基底とすべき必要最小限の意味属性を決定できることが期待される。
本論文では、情報検索テストコレクションBMIR-J2[4]を検索対象とした検索実験により、従来の単語を基底とした方法と検索精度を比較し、本方式の有効性を評価する。