next up previous
次へ: 単語を基底とした文書ベクトル空間法における意味的類似度 上へ: 意味属性体系を基底とした文書ベクトル空間法 戻る: 意味属性体系を基底とした文書ベクトル空間法

単語を基底とした文書ベクトル空間法 (W-VSM)

従来の単語を基底とした文書ベクトル空間法では,文もしくは文書の意味的類似 性はその中に出現した単語の組で表現されるものと仮定している.すなわち,文 書の意味的類似性を表現するために使用される単語の番号を $ i \ \ (1 \leq i
\leq n) $ とし,文書中での単語$i$の重みを$w_i$とするとき,文書は,以下の ような特性ベクトルで表わされる.


\begin{displaymath}
V = (w_1,w_2, \cdots ,w_i, \cdots ,w_n)
\end{displaymath} (1)

ベクトルの基底とすべき単語としては,キーワード検索の場合と同様,データベー ス全体に使用された単語の出現統計から, $tf \cdot idf$ 値などによって重要 と判断された単語を通常使用している.また,重み$w_i$ の値としては,文中に 単語$i$が使用されているときは1,使用されていないときは0とする方法と,文 中に使用された単語の出現頻度とする方法がある.また,各文書全体の相対的重 みはいずれも等しいとする立場から,ベクトルの絶対値が1となるよう正規化す る方法も採られている.本論文では以後,式1で与えられる特性ベクト ルを「単語を基底とした文書ベクトル」と呼び,このベクトルを使用したベクト ル空間法を「単語を基底とした文書ベクトル空間法 W-VSM(Word-Vector Space Model)」 と呼ぶ.



平成15年4月18日