従来の単語を基底とした文書ベクトル空間法では,文もしくは文書の意味的類似 性はその中に出現した単語の組で表現されるものと仮定している.すなわち,文 書の意味的類似性を表現するために使用される単語の番号を とし,文書中での単語の重みをとするとき,文書は,以下の ような特性ベクトルで表わされる.
ベクトルの基底とすべき単語としては,キーワード検索の場合と同様,データベー ス全体に使用された単語の出現統計から, 値などによって重要 と判断された単語を通常使用している.また,重み の値としては,文中に 単語が使用されているときは1,使用されていないときは0とする方法と,文 中に使用された単語の出現頻度とする方法がある.また,各文書全体の相対的重 みはいずれも等しいとする立場から,ベクトルの絶対値が1となるよう正規化す る方法も採られている.本論文では以後,式1で与えられる特性ベクト ルを「単語を基底とした文書ベクトル」と呼び,このベクトルを使用したベクト ル空間法を「単語を基底とした文書ベクトル空間法 W-VSM(Word-Vector Space Model)」 と呼ぶ.