3.2節で述べたような,意味属性の粒度に着目する汎化 (S-VSM(g))と意味属性の 値に着目する汎化(S-VSM(w))の2 つの汎化の方法を用いて,ベクトルの基底として使用する意味属性の数と検索 精度の関係を求めた.その結果を図5に示す.また,このうち, 意味属性の 値による汎化の場合について,汎化に伴う評価関 数の値の変化を同図に示す.なお,ここでは, とした.
図5の結果から,検索精度をあまり低下させない範囲(ピーク値 の以内の低下)で必要最小限のベクトルの基底数を求めると表 1の結果を得る.
方式種別 | 基底数削減の方法 | 検索精度(値)低下の許容度 | |
ピーク値の10% | ピーク値の20% | ||
本論文の方法 | 粒度による汎化 ( W-VSM(g) ) | 900属性 | 700属性 |
(単語意味属性を基底) | 値による汎化 ( W-VSM(w) ) | 600属性 | 300属性 |
従来の方法 | による方法 | 2,200属性 | 1,500属性 |
(単語を基底) |
これらの図表から,以下のことが示される.
必要最小限の基底数について見ると,十分な基底数を持つ場合に比べて,検索精 度を10 20% 以上低下させないためには,単語を基底とする文書ベクト ル法では,最低2,000程度の基底数が必要とされるのに対して,単語意味属性ベ クトルを用いて, 値による汎化では,基底数を約300 600程度まで削減できる.