データベース中で 値の小さい意味属性が汎化の対象となる. しかし,必ずしも, 値の小さい意味属性のすべてを汎化すれ ばよいとは限らない.いま,データベース内に収録された文書が検索対象とな る確率はすべて均等だとし,すべての文書を対象に求めた特性ベクトルの和を とする.要素の値の小さい意味属性は,検索精度に与 える影響が少ないから,情報検索において少ないベクトルの基底数で高い検索 精度を得るには,各の値がバランスしていることが必要である.すなわ ち, 値の低い意味属性でも,基底間でアンバランスが増大す るような汎化は,検索精度低下の原因となるから,高い検索精度を得るために は,データベース内の文書全体で出現する 値がバランスする ような意味属性を特性ベクトルの基底に選定する必要がある.
汎化すべき意味属性の選択基準について考える.データベース内に収録された 文書全体の特性ベクトルを式4とする.
ただし,は,意味属性に属す単語のデータベース全体での 値の和を,また,は,基底に使用される意味属性の数を示す. ここで,各の値の均等さを変動によって評価するとし,評価関数を以 下のように定義する.
(5) |
(6) |
基底のバランスを向上させるには,の値が,減少するような基底(意味属 性 )を選んで汎化を行う.そこで,意味属性を汎化すること を考える. の直属上位の意味属性の番号をとすると,汎化で は,の値がに加算され,基底数が1だけ減少する.従って,こ のようにして得られたの値をとすると,との差は,近似的に 式7が得られる.
ここで,条件から, とおくと, 式8が得られる.
以上から,汎化すべき基底は,その重 値と直属上位の基底の 値との積が,基底の平均値の二乗値の半分以下になるものを 選択する.
具体的には,以下の手順で汎化を行う.
上下関係にある意味属性 , のすべての組のうち,積が最も小さい 組を汎化する.
情報検索実験を行い,検索精度を求める.
検索精度の低下がある閾値以下の値のときは(a)に戻り,それ以 上の時は,汎化を停止する.