next up previous
次へ: 考察 上へ: 実験結果 戻る: 単語意味属性を基底とした文書ベクトル(SーVSM)と 単語を基底とした文書ベクトル空間法(W-VSM)の比較

粒度による汎化(S-VSM(g))と$tf \cdot idf$値による汎化 (S-VSM(w))の比較

3.2節で述べたような,意味属性の粒度に着目する汎化 (S-VSM(g))と意味属性の$tf \cdot idf$ 値に着目する汎化(S-VSM(w))の2 つの汎化の方法を用いて,ベクトルの基底として使用する意味属性の数と検索 精度の関係を求めた.その結果を図5に示す.また,このうち, 意味属性の$tf \cdot idf$ 値による汎化の場合について,汎化に伴う評価関 数$H$の値の変化を同図に示す.なお,ここでは,$b=1$ とした.

図 5: 必要最小限の基底数の決定
[width=13cm]figure/gra3.eps
Determination of Minimum Number of Vector Bases

5の結果から,検索精度をあまり低下させない範囲(ピーク値 の$10 \sim 20\% $以内の低下)で必要最小限のベクトルの基底数を求めると表 1の結果を得る.


Minimum Number of Vector Bases
表 1: 必要最小限の基底数
方式種別 基底数削減の方法 検索精度($F$値)低下の許容度
    ピーク値の10% ピーク値の20%
本論文の方法 粒度による汎化 ( W-VSM(g) ) 900属性 700属性
(単語意味属性を基底) $tf \cdot idf$ 値による汎化 ( W-VSM(w) ) 600属性 300属性
従来の方法 $tf \cdot idf$ による方法 2,200属性 1,500属性
(単語を基底)      

(注)意味属性を上位8段まで使用

これらの図表から,以下のことが示される.

  1. 今回の実験では,単語意味属性を基底とする文書ベクトル空間法は,従来の単語 を基底とする文書ベクトル空間法に比べて,基底数が小さくても検索精度が高い ことが示された.

  2. 汎化の方法としては,粒度による汎化(S-VSM(g))より$tf \cdot idf$ 値による汎化(S-VSM(w))の方が基底数 削減に強い.

必要最小限の基底数について見ると,十分な基底数を持つ場合に比べて,検索精 度を10 $ \sim $ 20% 以上低下させないためには,単語を基底とする文書ベクト ル法では,最低2,000程度の基底数が必要とされるのに対して,単語意味属性ベ クトルを用いて,$tf \cdot idf$ 値による汎化では,基底数を約300 $ \sim $ 600程度まで削減できる.



平成15年4月18日