単語意味属性を用いたベクトル空間法

Next: 必要最小限の意味属性の決定法 Up: ベクトル空間法 Previous: 従来のベクトル空間法

従来の単語を基底とする場合では、同義語、類議語が含む文書でも、表記が異なると類性が評価されないため、検索漏れが発生する。この問題を解決するために、本論文では、特性ベクトルの基底を単語から単語の意味に置き換えたベクトル空間法を提案する。

本方式では、文書の特性ベクトル $\vec{V'}$ (式3)の基底は日本語名詞の意味的用法を2,710種に分類し、相互の意味的関係を最大12段の木構造で表現している日本語語彙大系[3]の一般名詞意味属性(図1)とし、各要素は各意味属性S_iの重みs_iを与える。

$\begin{displaymath}\vec{V'}=(s_1,s_2,...,s_i,...,s_m) \end{displaymath}$

(3)

**Figure:** 一般名詞意味体系の一部

また、重みs_iの与え方としては、種々の方法があるが、一般的な $tf\cdot idf$ 法を採用する。各意味属性の $tf\cdot idf$ 値は以下の方法で求める。

1.

文書DBに収録された文書全体に対して、意味属性S_iに属する単語が出現する文書数を求め、idf値を計算する。

$\begin{displaymath}idf=\log \frac{文書DBの総文書数}{DF_i} \end{displaymath}$

(4)

DF_i:意味属性S_iに属する単語の出現する文書数

2.

各文書を対象に、意味属性S_iに属する単語の出現頻度を求め、tf値を計算する。

tf=意味属性S_iに属する単語の出現頻度

(5)

3.

(4式)、(5式)で得られたtf値とidf値から $tf\cdot idf$ 値を求める。

$\begin{displaymath}tf\cdot idf=tf \times idf \end{displaymath}$

(6)

なお、以下では、単語を基底とするベクトル空間法を単語ベクトル空間法、意味属性を基底とするベクトル空間法を意味ベクトル空間法と呼ぶ。

2000-05-30