next up previous
次へ: カテゴリ数 の推定 上へ: 問題の定式化 戻る: 出現確率によるカテゴリ特徴付け

出現確率クラスタリング法

$L$ 次元ベクトル $\mbox{\boldmath$p$}_k (k=1,2,...,K)$$N$ 個のカテゴリにクラスタ リングするために LBG 法[10]を用いる。通常の LBG 法では、 分割の個数が 2 の巾乗となり、任意カテゴリ数のクラスタリングを考える本 問題には適していない。また2分割を行なうため比較的歪みの小さい集合 (partition) までも分割してしまう危険性を持っている。そこで本報告では歪 み最大の集合のみを分割する変形 LBG 法を用いる[11]。こ れにより、2 の巾乗以外のカテゴリ数の場合でもクラスタリングが可能となり、 かつ歪みの小さい集合が分割されることがなくなる。LBG法と変形LBG法の比較 実験を4.1で述べる。

クラスタリングにおける出現確率間の距離尺度としてここでは次式で表され る Euclid 距離及び二つのタイプの Kullback-Leibler (KL) 情報量を用いる。


\begin{displaymath}
d_{\rm Euclid}(\mbox{\boldmath$p$},\mbox{\boldmath$z$}) = \sqrt{ \sum_{l=1}^{L} ( p_l - z_l )^2 },
\end{displaymath} (2)


\begin{displaymath}
d_{\rm KL\ Type 1}(\mbox{\boldmath$p$},\mbox{\boldmath$z$}) = \sum_{l=1}^{L} z_l \log \frac{z_l}{p_l},
\end{displaymath} (3)


\begin{displaymath}
d_{\rm KL \ Type 2}(\mbox{\boldmath$p$},\mbox{\boldmath$z$}) = d_{\rm KL \ Type 1}(\mbox{\boldmath$z$},\mbox{\boldmath$p$}).
\end{displaymath} (4)

ただし $\mbox{\boldmath$z$}= (z_l)$ である。Euclid 距離, KL Type 2 尺度に対する centroid は相加平均であり、KL Type 1 に対しては以下のように計算される。

ここで、 $\char93 (\mbox{\boldmath$C$})$ は集合 $\mbox{\boldmath$C$}$ の要素の数である。



Jin'ichi Murakami 平成13年10月5日