next up previous
Next: ベクトル空間法 Up: No Title Previous: No Title

はじめに

近年、WWWなど電子化された文書情報の氾濫しており、自分が必要とする文書情報を効率良く検索する情報検索システムが必要となっている。 従来の検索手法として、キーワード検索方式が一般的であるが、最近では、より検索精度の向上を目指して、ベクトル空間法の研究[1]が盛んである。 ベクトル空間法では、検索要求を自然文で与えるため、キーワード検索に比べて、具体的に検索条件を表現することができ、検索精度の良い方法として注目されている。

しかし、従来のベクトル空間法では、多数の単語をベクトルの基底に用いるため、類似度計算のコスト、ベクトルのスパース性により、文書間の類似性が判定できない恐れがあることなどが問題とされている。

そこで、 $tf\cdot idf$法[1]などの頻度統計を利用して、文書データベース中の重要語を基底に選択する方法が一般的である。 また、LSI法[2]など、基底となる単語が互いの独立性の高くなるようにベクトル空間の基底軸を変換する方法が提案されているが、変換のための計算コストが高い。

これらに対して、本論文はベクトル空間の基底となる単語を日本語語彙大系[3]に定義されている単語意味属性(2,710種)に置き換える方法を提案する。

本方式は、文書間の意味的な類似性を単語の意味で評価するため、従来の基底となる単語のみの評価に比べて、表記の揺れに強く、すべての単語が検索に寄与するため、検索漏れの改善が期待できる。 また、意味属性相互の意味的な上下関係を利用すれば、検索精度をあまり落さずにベクトルの基底数を削減することができ、容易に基底とすべき必要最小限の意味属性を決定できることが期待される。

本論文では、情報検索テストコレクションBMIR-J2[4]を検索対象とした検索実験により、従来の単語を基底とした方法と検索精度を比較し、本方式の有効性を評価する。




2000-05-30