next up previous
Next: 単語意味属性を用いたベクトル空間法 Up: ベクトル空間法 Previous: ベクトル空間法

従来のベクトル空間法

従来のベクトル空間法は、文書の意味を文書内の単語を基底とする特性ベクトルで表現する。 特性ベクトル$\vec{V}$の各要素には、文書中での単語Wiの重みを絶対値が1になるように正規化した値wiを与える(式1)。 そして、特性ベクトルの間の距離が近い文書を類似文書として検索する。 一般的には、各文書Di,Djの特性ベクトルの内積をとり、cosinの値を文書間の類似度 sim(Vi,Vj)(式2)とする。

\begin{displaymath}\vec{V}=(w_1,w_2,...,w_i,...,w_m)
\end{displaymath} (1)


\begin{displaymath}sim(V_i,V_j)=\vec{V_i}\cdot\vec{V_j}
\end{displaymath} (2)


\begin{displaymath}\hspace{2cm}\vec{V_i},\vec{V_j}は文書V_i,V_jの特性ベクトル \end{displaymath}




2000-05-30