next up previous
次へ: ベクトル変換のための計算コスト 上へ: 必要最小限の意味属性の決定 戻る: 粒度による汎化 S-VSM(g)

$tf \cdot idf$ 値による汎化 S-VSM(w)

  1. 基本的な考え方

    データベース中で $tf \cdot idf$ 値の小さい意味属性が汎化の対象となる. しかし,必ずしも, $tf \cdot idf$ 値の小さい意味属性のすべてを汎化すれ ばよいとは限らない.いま,データベース内に収録された文書が検索対象とな る確率はすべて均等だとし,すべての文書を対象に求めた特性ベクトルの和を $V_t$とする.$V_t$要素$n_i$の値の小さい意味属性$\char93  i$は,検索精度に与 える影響が少ないから,情報検索において少ないベクトルの基底数で高い検索 精度を得るには,各$n_i$の値がバランスしていることが必要である.すなわ ち, $tf \cdot idf$ 値の低い意味属性でも,基底間でアンバランスが増大す るような汎化は,検索精度低下の原因となるから,高い検索精度を得るために は,データベース内の文書全体で出現する$tf \cdot idf$ 値がバランスする ような意味属性を特性ベクトルの基底に選定する必要がある.

  2. 汎化すべき意味属性の選択基準

    汎化すべき意味属性の選択基準について考える.データベース内に収録された 文書全体の特性ベクトルを式4とする.


    \begin{displaymath}
V_t=(n_1,n_2, \cdots ,n_i, \cdots ,n_m)
\end{displaymath} (4)

    ただし,$n_i$は,意味属性$\char93  i$に属す単語のデータベース全体での $tf \cdot idf$ 値の和を,また,$m$は,基底に使用される意味属性の数を示す. ここで,各$n_i$の値の均等さを変動によって評価するとし,評価関数$H$を以 下のように定義する.


    \begin{displaymath}
H = (n_1-n)^2 +(n_2-n)^2 + \cdots +(n_i-n)^2 + \cdots + (n_m-n)^2
\end{displaymath} (5)

    但し $n$$n_i$の平均値とする.


    \begin{displaymath}
n = \sum _{i=1} ^ {m} {n_i \over m}
\end{displaymath} (6)

    基底のバランスを向上させるには,$H$の値が,減少するような基底(意味属 性$\char93  i$ )を選んで汎化を行う.そこで,意味属性$\char93  i$を汎化すること を考える.$\char93  i$ の直属上位の意味属性の番号を$ \char93  j $とすると,汎化で は,$n_i$の値が$n_j$に加算され,基底数$m$が1だけ減少する.従って,こ のようにして得られた$H$の値を$H_1$とすると,$H$$H_1$の差は,近似的に [*]7が得られる.


    \begin{displaymath}
H - H_1 \simeq (n_i-n)^2 +(n_j-n)^2 -(n_i+n_j-n)^2
\end{displaymath} (7)

    ここで,条件から,$ H - H_1 > 0 $ とおくと, 式8が得られる.


    \begin{displaymath}
n_i \cdot n_j < n ^2 / 2
\end{displaymath} (8)

    以上から,汎化すべき基底は,その重 $tf \cdot idf$ 値と直属上位の基底の $tf \cdot idf$ 値との積が,基底の平均値の二乗値の半分以下になるものを 選択する.

  3. 汎化の手順

    具体的には,以下の手順で汎化を行う.

    1. 汎化

      上下関係にある意味属性$n_i$ , $n_j$のすべての組のうち,積が最も小さい 組を汎化する.

    2. 検索

      情報検索実験を行い,検索精度を求める.

    3. 停止

      検索精度の低下がある閾値以下の値のときは(a)に戻り,それ以 上の時は,汎化を停止する.


next up previous
次へ: ベクトル変換のための計算コスト 上へ: 必要最小限の意味属性の決定 戻る: 粒度による汎化 S-VSM(g)
平成15年4月18日