単語を基底とした文書ベクトル空間法において.文書の意味類似度を特性ベクトルで表 現したとき,異なる文書,間の意味的類似性 は, それぞれの文書に対して求めた特性ベクトルの内積として,式2のよう に表現される.
但し, は,それぞれ,文書, の特性ベクトルを表す.
従って,単語を基底とした文書ベクトル空間法を用いた情報検索では,利用者の与えた検索要求 文について特性ベクトルを求めて,データベースに収録された各文書の特性ベ クトルとの間で類似度を計算し,類似度がある一定値以上の文書を抽出してい る.また,単語を基底とした文書ベクトル空間法では,任意の文書をつなぎ合わせた文書につい ての特性ベクトルも容易に合成できるから,類似度の高い文書相互間で順にベ クトル合成を行えば,文書全体を容易にクラスタリングすることができる.