情報検索において,従来の単語を基底とした文書ベクトル空間法W-VSMに比べて, 単語意味属性を基底とする文書ベクトル空間法S-VSMが,どのような効果を持つ かについて考察する.
従来の単語を基底とした文書ベクトル空間法では,ベクトルの基底として使用さ れる名詞の意味は,互いに独立であることが仮定されているが,現実にはこの仮 定は成り立たない.そのため,ベクトルの基底数を減少させるため,従来,基底をクラ スタリングで得られたクラスターのベクトルとしたり,特異値分解(SVD: Singular Value Decomposition) によって得られたベクトルに変換する方法の研 究[DeerwesterDumaisFurnasLandauer HarshmanDeerwester et al.1990]が行われてきた.しかし,これらの方法は,ベクトルの変 換に多くのコストを要する点が問題であった.
これに対して,本論文で基底として使用する単語意味属性は,木構造によって 意味的上下関係(is-a関係とhas-a関係)が規定されている(2.4 節参照).この関係を利用して基底数を削減するため,計算コストはきわめて 小さい.また,あまり効果のない意味属性を上位の意味属性で代用できるので, 削減された意味属性も検索精度に寄与できるため,従来の方法と同様,検索精 度をあまり落とすことなく,基底数が削減できると期待される.
従来の単語を基底とした文書ベクトル空間法では,文書中に出現した単語のうち,ベク トルの基底として選択された単語のみがその文書の意味に反映する.そのため, 意味が同じであっても,表記が異なる語は別の語として判定される.また,同義 語や類義語を含む文書であっても,それが基底として採用されない限り検索の対 象とならない.
これに対して,単語意味属性を基底とした文書ベクトル空間法では, 2.3,2.4節で述べたように,30万語の名詞 が2,710の意味属性にマッピングされ,検索要求文に使用された単語とデータベース内の記事中の単語の意味的 な類似性が,単語意味属性を介して評価される.すなわち,文書中に使用される 語は,それが異表記語,同意語,同義語のいずれでであっても,その意味が特性 ベクトルに反映するため,情報検索において,検索漏れの削減の効果が期待でき る.
単語意味属性を基底とした文書ベクトル空間法では,1つの単語に対して 意味属性による検索をおこなうため,複数の単語を検索する のと等価になる.そのため適合率の低下が予想される.