next up previous
次へ: 単語意味属性を基底とした文書ベクトル空間法 (S-VSM) 上へ: 意味属性体系を基底とした文書ベクトル空間法 戻る: 単語を基底とした文書ベクトル空間法 (W-VSM)

単語を基底とした文書ベクトル空間法における意味的類似度

単語を基底とした文書ベクトル空間法において.文書の意味類似度を特性ベクトルで表 現したとき,異なる文書$D_i$$D_j$間の意味的類似性 $ sim (D_i,D_j)$は, それぞれの文書に対して求めた特性ベクトルの内積として,式2のよう に表現される.


\begin{displaymath}
sim (D_i,D_j)=V_i \cdot V_j
\end{displaymath} (2)

但し,$V_i \cdot V_j $ は,それぞれ,文書$D_i$$D_j$ の特性ベクトルを表す.

従って,単語を基底とした文書ベクトル空間法を用いた情報検索では,利用者の与えた検索要求 文について特性ベクトルを求めて,データベースに収録された各文書の特性ベ クトルとの間で類似度を計算し,類似度がある一定値以上の文書を抽出してい る.また,単語を基底とした文書ベクトル空間法では,任意の文書をつなぎ合わせた文書につい ての特性ベクトルも容易に合成できるから,類似度の高い文書相互間で順にベ クトル合成を行えば,文書全体を容易にクラスタリングすることができる.



平成15年4月18日