データベース中で 値の小さい意味属性が汎化の対象となる.
しかし,必ずしも,
値の小さい意味属性のすべてを汎化すれ
ばよいとは限らない.いま,データベース内に収録された文書が検索対象とな
る確率はすべて均等だとし,すべての文書を対象に求めた特性ベクトルの和を
とする.
要素
の値の小さい意味属性
は,検索精度に与
える影響が少ないから,情報検索において少ないベクトルの基底数で高い検索
精度を得るには,各
の値がバランスしていることが必要である.すなわ
ち,
値の低い意味属性でも,基底間でアンバランスが増大す
るような汎化は,検索精度低下の原因となるから,高い検索精度を得るために
は,データベース内の文書全体で出現する
値がバランスする
ような意味属性を特性ベクトルの基底に選定する必要がある.
汎化すべき意味属性の選択基準について考える.データベース内に収録された 文書全体の特性ベクトルを式4とする.
ただし,は,意味属性
に属す単語のデータベース全体での
値の和を,また,
は,基底に使用される意味属性の数を示す.
ここで,各
の値の均等さを変動によって評価するとし,評価関数
を以
下のように定義する.
![]() |
(5) |
![]() |
(6) |
基底のバランスを向上させるには,の値が,減少するような基底(意味属
性
)を選んで汎化を行う.そこで,意味属性
を汎化すること
を考える.
の直属上位の意味属性の番号を
とすると,汎化で
は,
の値が
に加算され,基底数
が1だけ減少する.従って,こ
のようにして得られた
の値を
とすると,
と
の差は,近似的に
式7が得られる.
ここで,条件から, とおくと,
式8が得られる.
以上から,汎化すべき基底は,その重 値と直属上位の基底の
値との積が,基底の平均値の二乗値の半分以下になるものを
選択する.
具体的には,以下の手順で汎化を行う.
上下関係にある意味属性 ,
のすべての組のうち,積が最も小さい
組を汎化する.
情報検索実験を行い,検索精度を求める.
検索精度の低下がある閾値以下の値のときは(a)に戻り,それ以 上の時は,汎化を停止する.