単語を基底とした文書ベクトル空間法における意味的類似度

次へ: 単語意味属性を基底とした文書ベクトル空間法 (S-VSM) 上へ: 意味属性体系を基底とした文書ベクトル空間法 戻る: 単語を基底とした文書ベクトル空間法 (W-VSM)

単語を基底とした文書ベクトル空間法における意味的類似度

単語を基底とした文書ベクトル空間法において．文書の意味類似度を特性ベクトルで表現したとき，異なる文書，間の意味的類似性は，それぞれの文書に対して求めた特性ベクトルの内積として，式2のように表現される．

$\begin{displaymath} sim (D_i,D_j)=V_i \cdot V_j \end{displaymath}$

(2)

但し， $V_i \cdot V_j$ は，それぞれ，文書，の特性ベクトルを表す．

従って，単語を基底とした文書ベクトル空間法を用いた情報検索では，利用者の与えた検索要求文について特性ベクトルを求めて，データベースに収録された各文書の特性ベクトルとの間で類似度を計算し，類似度がある一定値以上の文書を抽出している．また，単語を基底とした文書ベクトル空間法では，任意の文書をつなぎ合わせた文書についての特性ベクトルも容易に合成できるから，類似度の高い文書相互間で順にベクトル合成を行えば，文書全体を容易にクラスタリングすることができる．

平成15年4月18日