本論文では,単語の代わりに,その単語の意味属性を使用する方法を提案する.
本方式では,すべての単語を 個の意味属性に分類したのち,分類された
意味属性を要素とする特性ベクトルによって文書の意味的類似性を表現する.すなわち,
対象とする文書
において
番目の意味属性を持つ単語全体の重み
とするとき,文書
の特性ベクトル
は,次式で表現される.
重みの与え方としては,種々の方法が考えられるが,本論文では,単語を
基底とした文書ベクトル空間法の場合と同様,
法の考えを適用し,
以下の方法で得られた値とする.
なお,式1で与えられる特性ベクトルを「単語を基底とした文書ベクト ル」と呼んだのに対して,以下では,式3で与えられる特性ベクトルを 「単語意味属性を基底とした文書ベクトル」と呼び,このベクトルを使用したベ クトル空間法を「単語意味属性を基底とした文書ベクトル空間法 S-VSM(Semantic-Vector Space Model)」と呼ぶ.