next up previous
次へ: 日本語単語の意味属性体系 上へ: 意味属性体系を基底とした文書ベクトル空間法 戻る: 単語を基底とした文書ベクトル空間法における意味的類似度


単語意味属性を基底とした文書ベクトル空間法 (S-VSM)

本論文では,単語の代わりに,その単語の意味属性を使用する方法を提案する. 本方式では,すべての単語を $k$ 個の意味属性に分類したのち,分類された 意味属性を要素とする特性ベクトルによって文書の意味的類似性を表現する.すなわち, 対象とする文書 $D_j$において$i$番目の意味属性を持つ単語全体の重み $S_i$とするとき,文書$D_j$の特性ベクトル$V_j$は,次式で表現される.


\begin{displaymath}
V_j=(S_1,S_2, \cdots ,S_i, \cdots ,S_k)
\end{displaymath} (3)

重み$S_i$の与え方としては,種々の方法が考えられるが,本論文では,単語を 基底とした文書ベクトル空間法の場合と同様,$tf \cdot idf$法の考えを適用し, 以下の方法で得られた値とする.

  1. データベースに収録された文書全体に対して,意味属性 $S_i$に属す 単語が出現した頻度の合計を求め,それぞれの$idf$値を計算する.

  2. 文書$D_j$を対象に,意味属性$S_i$に属す単語が出現した頻度の 合計を求め,その値を文書$D_j$$tf$値とする.

  3. 上記で得られた$tf$値と$idf$値から,意味属性$S_i$$tf \cdot idf$値を求める.

  4. 上記で得られた$tf \cdot idf$ 値を$ \vert V_j \vert = 1 $となるように正規 化する.

なお,式1で与えられる特性ベクトルを「単語を基底とした文書ベクト ル」と呼んだのに対して,以下では,式3で与えられる特性ベクトルを 「単語意味属性を基底とした文書ベクトル」と呼び,このベクトルを使用したベ クトル空間法を「単語意味属性を基底とした文書ベクトル空間法 S-VSM(Semantic-Vector Space Model)」と呼ぶ.



平成15年4月18日