単語意味属性を基底とした文書ベクトル空間法 (S-VSM)

次へ: 日本語単語の意味属性体系 上へ: 意味属性体系を基底とした文書ベクトル空間法 戻る: 単語を基底とした文書ベクトル空間法における意味的類似度

単語意味属性を基底とした文書ベクトル空間法 (S-VSM)

本論文では，単語の代わりに，その単語の意味属性を使用する方法を提案する．本方式では，すべての単語を個の意味属性に分類したのち，分類された意味属性を要素とする特性ベクトルによって文書の意味的類似性を表現する．すなわち，対象とする文書において番目の意味属性を持つ単語全体の重みとするとき，文書の特性ベクトルは，次式で表現される．

$\begin{displaymath} V_j=(S_1,S_2, \cdots ,S_i, \cdots ,S_k) \end{displaymath}$

(3)

重みの与え方としては，種々の方法が考えられるが，本論文では，単語を基底とした文書ベクトル空間法の場合と同様， $tf \cdot idf$ 法の考えを適用し，以下の方法で得られた値とする．

データベースに収録された文書全体に対して，意味属性に属す単語が出現した頻度の合計を求め，それぞれの値を計算する．
文書を対象に，意味属性に属す単語が出現した頻度の合計を求め，その値を文書の値とする．
上記で得られた値と値から，意味属性の $tf \cdot idf$ 値を求める．
上記で得られた $tf \cdot idf$ 値を $\vert V_j \vert = 1$ となるように正規化する．

なお，式1で与えられる特性ベクトルを「単語を基底とした文書ベクトル」と呼んだのに対して，以下では，式3で与えられる特性ベクトルを「単語意味属性を基底とした文書ベクトル」と呼び，このベクトルを使用したベクトル空間法を「単語意味属性を基底とした文書ベクトル空間法 S-VSM(Semantic-Vector Space Model)」と呼ぶ．

平成15年4月18日