next up previous
Next: 従来法との比較実験 Up: 必要最小限の意味属性の決定法 Previous: 必要最小限の意味属性の決定法

意味属性の汎化方法

意味属性の汎化とは、下位の意味属性をその上位の意味属性へ縮退させ、上位属性で代表することである。

汎化の対象となる意味属性の選択方法としては、意味属性の粒度に注目して、意味の粒度が細かい、最下位の意味属性から順次、選択する方法、また、意味属性の重みに注目し、検索にあまり寄与しないと思われる重みの少ない意味属性を選択する方法が考えられる。 図2に具体的な汎化の例を示す。


 
Figure: 汎化の方法

文書DB内に収録された文書が検索対象となる確率はすべて等しいとし、文書DB内、すべての文書を対象に求めた特性ベクトルの和をVt(式5)とする。 Vtの要素niの値が小さい意味属性は検索精度に与える影響が少なくなるから、少ない基底数で高い検索精度を得るには、各niの値が均等していることが必要である。 つまり、各niの値が均等になるように意味属性を選択し、汎化すれば、検索に寄与しない意味属性を順次削減することが期待できる。

$\displaystyle \vec{V_t}=(n_1,n_2,...,n_i,...,n_m)$     (7)
niは意味属性iの文書DB内の出現頻度      

ここで、各niの均等さをniの平均値$\bar{n}$(式9)との変動で評価し、評価関数H(式8)を定義する。
H = $\displaystyle (\bar{n}-n_1)^2+...+(\bar{n}-n_i)^2+$  
    $\displaystyle (\bar{n}-n_j)^2+...+(\bar{n}-n_m)^2$  
  = $\displaystyle \sum_{i=1}^m (\bar{n}-n_i)^2$ (8)


\begin{displaymath}\bar{n}=\displaystyle\sum_{i=1}^m n_i / m
\end{displaymath} (9)

Hの値が減少するように意味属性Siを直属の上位属性Sjに汎化した場合のHをH'とすると、以下の式が成立する。
H-H' = $\displaystyle (\bar{n}-n_i)^2+(\bar{n}-n_j)^2-$ (10)
    $\displaystyle (\bar{n}-n_i-n_j)^2 >0$  
    $\displaystyle n_i\cdot n_j < \frac{\bar{n}^2}{2}$ (11)

以上から、汎化すべき意味属性は(式11)を満たす意味属性を選択すれば良いことがわかる。 以下に、具体的な汎化手順を示す。
1.
上下関係にある意味属性の $n_i\cdot n_j$の値が最小の意味属性を汎化する。
2.
検索実験を行い、検索精度の低下が、ある値以上であれば、汎化を停止する。
3.
1へ戻る




2000-05-30