従来の単語を基底とした文書ベクトル空間法では,文もしくは文書の意味的類似
性はその中に出現した単語の組で表現されるものと仮定している.すなわち,文
書の意味的類似性を表現するために使用される単語の番号を
とし,文書中での単語
の重みを
とするとき,文書は,以下の
ような特性ベクトルで表わされる.
ベクトルの基底とすべき単語としては,キーワード検索の場合と同様,データベー
ス全体に使用された単語の出現統計から, 値などによって重要
と判断された単語を通常使用している.また,重み
の値としては,文中に
単語
が使用されているときは1,使用されていないときは0とする方法と,文
中に使用された単語の出現頻度とする方法がある.また,各文書全体の相対的重
みはいずれも等しいとする立場から,ベクトルの絶対値が1となるよう正規化す
る方法も採られている.本論文では以後,式1で与えられる特性ベクト
ルを「単語を基底とした文書ベクトル」と呼び,このベクトルを使用したベクト
ル空間法を「単語を基底とした文書ベクトル空間法 W-VSM(Word-Vector Space Model)」
と呼ぶ.