単語を基底とした文書ベクトル空間法 (W-VSM)

次へ: 単語を基底とした文書ベクトル空間法における意味的類似度 上へ: 意味属性体系を基底とした文書ベクトル空間法 戻る: 意味属性体系を基底とした文書ベクトル空間法

単語を基底とした文書ベクトル空間法 (W-VSM)

従来の単語を基底とした文書ベクトル空間法では，文もしくは文書の意味的類似性はその中に出現した単語の組で表現されるものと仮定している．すなわち，文書の意味的類似性を表現するために使用される単語の番号を $i \ \ (1 \leq ｉ \leq n)$ とし，文書中での単語の重みをとするとき，文書は，以下のような特性ベクトルで表わされる．

$\begin{displaymath} V = (w_1,w_2, \cdots ,w_i, \cdots ,w_n) \end{displaymath}$

(1)

ベクトルの基底とすべき単語としては，キーワード検索の場合と同様，データベース全体に使用された単語の出現統計から， $tf \cdot idf$ 値などによって重要と判断された単語を通常使用している．また，重みの値としては，文中に単語が使用されているときは1，使用されていないときは0とする方法と，文中に使用された単語の出現頻度とする方法がある．また，各文書全体の相対的重みはいずれも等しいとする立場から，ベクトルの絶対値が1となるよう正規化する方法も採られている．本論文では以後，式1で与えられる特性ベクトルを「単語を基底とした文書ベクトル」と呼び，このベクトルを使用したベクトル空間法を「単語を基底とした文書ベクトル空間法 W-VSM（Word-Vector Space Model)」と呼ぶ．

平成15年4月18日