粒度による汎化（S-VSM(g))と値による汎化 (S-VSM(w))の比較

次へ: 考察 上へ: 実験結果 戻る: 単語意味属性を基底とした文書ベクトル(SーVSM)と単語を基底とした文書ベクトル空間法（W-VSM）の比較

粒度による汎化（S-VSM(g))と $tf \cdot idf$ 値による汎化 (S-VSM(w))の比較

3.2節で述べたような，意味属性の粒度に着目する汎化（S-VSM(g))と意味属性の $tf \cdot idf$ 値に着目する汎化（S-VSM(w))の２つの汎化の方法を用いて，ベクトルの基底として使用する意味属性の数と検索精度の関係を求めた．その結果を図5に示す．また，このうち，意味属性の $tf \cdot idf$ 値による汎化の場合について，汎化に伴う評価関数の値の変化を同図に示す．なお，ここでは，とした．

**図 5:** 必要最小限の基底数の決定
[width=13cm]figure/gra3.eps Determination of Minimum Number of Vector Bases

図5の結果から，検索精度をあまり低下させない範囲（ピーク値の $10 \sim 20\%$ 以内の低下)で必要最小限のベクトルの基底数を求めると表 1の結果を得る．

Minimum Number of Vector Bases

**表 1:** 必要最小限の基底数
方式種別	基底数削減の方法	検索精度(値)低下の許容度
		ピーク値の10%	ピーク値の20%
本論文の方法	粒度による汎化 ( W-VSM(g) )	900属性	700属性
(単語意味属性を基底)	$tf \cdot idf$ 値による汎化 ( W-VSM(w) )	600属性	300属性
従来の方法	$tf \cdot idf$ による方法	2,200属性	1,500属性
(単語を基底)

(注)意味属性を上位8段まで使用

これらの図表から，以下のことが示される．

今回の実験では，単語意味属性を基底とする文書ベクトル空間法は，従来の単語を基底とする文書ベクトル空間法に比べて，基底数が小さくても検索精度が高いことが示された．
汎化の方法としては，粒度による汎化（S-VSM(g))より $tf \cdot idf$ 値による汎化（S-VSM(w))の方が基底数削減に強い．

必要最小限の基底数について見ると，十分な基底数を持つ場合に比べて，検索精度を10 $\sim$ 20% 以上低下させないためには，単語を基底とする文書ベクトル法では，最低2,000程度の基底数が必要とされるのに対して，単語意味属性ベクトルを用いて， $tf \cdot idf$ 値による汎化では，基底数を約300 $\sim$ 600程度まで削減できる．

平成15年4月18日