値による汎化 S-VSM(w)

次へ: ベクトル変換のための計算コスト 上へ: 必要最小限の意味属性の決定 戻る: 粒度による汎化 S-VSM(g)

$tf \cdot idf$ 値による汎化 S-VSM(w)

基本的な考え方
データベース中で $tf \cdot idf$ 値の小さい意味属性が汎化の対象となる．しかし，必ずしも， $tf \cdot idf$ 値の小さい意味属性のすべてを汎化すればよいとは限らない．いま，データベース内に収録された文書が検索対象となる確率はすべて均等だとし，すべての文書を対象に求めた特性ベクトルの和をとする．要素の値の小さい意味属性 $\char93 i$ は，検索精度に与える影響が少ないから，情報検索において少ないベクトルの基底数で高い検索精度を得るには，各の値がバランスしていることが必要である．すなわち， $tf \cdot idf$ 値の低い意味属性でも，基底間でアンバランスが増大するような汎化は，検索精度低下の原因となるから，高い検索精度を得るためには，データベース内の文書全体で出現する $tf \cdot idf$ 値がバランスするような意味属性を特性ベクトルの基底に選定する必要がある．
汎化すべき意味属性の選択基準
汎化すべき意味属性の選択基準について考える．データベース内に収録された文書全体の特性ベクトルを式4とする．

$\begin{displaymath} V_t=(n_1,n_2, \cdots ,n_i, \cdots ,n_m) \end{displaymath}$ (4)

ただし，は，意味属性 $\char93 i$ に属す単語のデータベース全体での $tf \cdot idf$ 値の和を，また，は，基底に使用される意味属性の数を示す．ここで，各の値の均等さを変動によって評価するとし，評価関数を以下のように定義する．

$\begin{displaymath} H = (n_1-n)^2 +(n_2-n)^2 + \cdots +(n_i-n)^2 + \cdots + (n_m-n)^2 \end{displaymath}$ (5)

但しはの平均値とする．

$\begin{displaymath} n = \sum _{i=1} ^ {m} {n_i \over m} \end{displaymath}$ (6)

基底のバランスを向上させるには，の値が，減少するような基底（意味属性 $\char93 i$ ）を選んで汎化を行う．そこで，意味属性 $\char93 i$ を汎化することを考える． $\char93 i$ の直属上位の意味属性の番号を $\char93 j$ とすると，汎化では，の値がに加算され，基底数が１だけ減少する．従って，このようにして得られたの値をとすると，との差は，近似的に式7が得られる．

$\begin{displaymath} H - H_1 \simeq (n_i-n)^2 +(n_j-n)^2 -(n_i+n_j-n)^2 \end{displaymath}$ (7)

ここで，条件から，とおくと，式8が得られる．

$\begin{displaymath} n_i \cdot n_j < n ^2 / 2 \end{displaymath}$ (8)

以上から，汎化すべき基底は，その重 $tf \cdot idf$ 値と直属上位の基底の $tf \cdot idf$ 値との積が，基底の平均値の二乗値の半分以下になるものを選択する．
汎化の手順
具体的には，以下の手順で汎化を行う．
1. 汎化
  上下関係にある意味属性 , のすべての組のうち，積が最も小さい組を汎化する．
2. 検索
  情報検索実験を行い，検索精度を求める．
3. 停止
  検索精度の低下がある閾値以下の値のときは(a)に戻り，それ以上の時は，汎化を停止する．

次へ: ベクトル変換のための計算コスト 上へ: 必要最小限の意味属性の決定 戻る: 粒度による汎化 S-VSM(g)

平成15年4月18日