単語意味属性を基底とした文書ベクトルの効果

次へ: 必要最小限の意味属性の決定 上へ: 意味属性体系を基底とした文書ベクトル空間法 戻る: 日本語単語の意味属性体系

単語意味属性を基底とした文書ベクトルの効果

情報検索において，従来の単語を基底とした文書ベクトル空間法W-VSMに比べて，単語意味属性を基底とする文書ベクトル空間法S-VSMが，どのような効果を持つかについて考察する．

ベクトルの基底数削減の可能性
従来の単語を基底とした文書ベクトル空間法では，ベクトルの基底として使用される名詞の意味は，互いに独立であることが仮定されているが，現実にはこの仮定は成り立たない．そのため，ベクトルの基底数を減少させるため，従来，基底をクラスタリングで得られたクラスターのベクトルとしたり，特異値分解(SVD: Singular Value Decomposition) によって得られたベクトルに変換する方法の研究[DeerwesterDumaisFurnasLandauer HarshmanDeerwester et al.1990]が行われてきた．しかし，これらの方法は，ベクトルの変換に多くのコストを要する点が問題であった．
これに対して，本論文で基底として使用する単語意味属性は，木構造によって意味的上下関係（is-a関係とhas-a関係）が規定されている（2.4 節参照）．この関係を利用して基底数を削減するため，計算コストはきわめて小さい．また，あまり効果のない意味属性を上位の意味属性で代用できるので，削減された意味属性も検索精度に寄与できるため，従来の方法と同様，検索精度をあまり落とすことなく，基底数が削減できると期待される．
検索漏れの減少の可能性
従来の単語を基底とした文書ベクトル空間法では，文書中に出現した単語のうち，ベクトルの基底として選択された単語のみがその文書の意味に反映する．そのため，意味が同じであっても，表記が異なる語は別の語として判定される．また，同義語や類義語を含む文書であっても，それが基底として採用されない限り検索の対象とならない．
これに対して，単語意味属性を基底とした文書ベクトル空間法では， 2.3，2.4節で述べたように，30万語の名詞が2,710の意味属性にマッピングされ，検索要求文に使用された単語とデータベース内の記事中の単語の意味的な類似性が，単語意味属性を介して評価される．すなわち，文書中に使用される語は，それが異表記語，同意語，同義語のいずれでであっても，その意味が特性ベクトルに反映するため，情報検索において，検索漏れの削減の効果が期待できる．
適合率の低下
単語意味属性を基底とした文書ベクトル空間法では，1つの単語に対して意味属性による検索をおこなうため，複数の単語を検索するのと等価になる．そのため適合率の低下が予想される．

平成15年4月18日