出現確率クラスタリング法

次へ: カテゴリ数の推定 上へ: 問題の定式化 戻る: 出現確率によるカテゴリ特徴付け

出現確率クラスタリング法

次元ベクトル $\mbox{\boldmath$p$}_k (k=1,2,...,K)$ を個のカテゴリにクラスタリングするために LBG 法[10]を用いる。通常の LBG 法では、分割の個数が 2 の巾乗となり、任意カテゴリ数のクラスタリングを考える本問題には適していない。また２分割を行なうため比較的歪みの小さい集合 (partition) までも分割してしまう危険性を持っている。そこで本報告では歪み最大の集合のみを分割する変形 LBG 法を用いる[11]。これにより、2 の巾乗以外のカテゴリ数の場合でもクラスタリングが可能となり、かつ歪みの小さい集合が分割されることがなくなる。LBG法と変形LBG法の比較実験を4.1で述べる。

クラスタリングにおける出現確率間の距離尺度としてここでは次式で表される Euclid 距離及び二つのタイプの Kullback-Leibler (KL) 情報量を用いる。

$\begin{displaymath} d_{\rm Euclid}(\mbox{\boldmath$p$},\mbox{\boldmath$z$}) = \sqrt{ \sum_{l=1}^{L} ( p_l - z_l )^2 }, \end{displaymath}$

(2)

$\begin{displaymath} d_{\rm KL\ Type 1}(\mbox{\boldmath$p$},\mbox{\boldmath$z$}) = \sum_{l=1}^{L} z_l \log \frac{z_l}{p_l}, \end{displaymath}$

(3)

$\begin{displaymath} d_{\rm KL \ Type 2}(\mbox{\boldmath$p$},\mbox{\boldmath$z$}) = d_{\rm KL \ Type 1}(\mbox{\boldmath$z$},\mbox{\boldmath$p$}). \end{displaymath}$

(4)

ただし $\mbox{\boldmath$z$}= (z_l)$ である。Euclid 距離, KL Type 2 尺度に対する centroid は相加平均であり、KL Type 1 に対しては以下のように計算される。

Euclid 距離, KL Type 2:

$\begin{displaymath} z_l^c = \frac{1}{\char93 (\mbox{\boldmath$C$})} \sum_{\mbox{\boldmath$p$}\in\mbox{\boldmath$C$}} p_l. \end{displaymath}$ (5)
KL Type 1:

$\begin{displaymath} z_l^c = \frac{q_l}{\displaystyle{\sum_{l=1}^L q_l}}, \ \ ... ...{\boldmath$C$}} p_l \right]^{1/\char93 (\mbox{\boldmath$C$})}. \end{displaymath}$ (6)

ここで、 $\char93 (\mbox{\boldmath$C$})$ は集合 $\mbox{\boldmath$C$}$ の要素の数である。

Jin'ichi Murakami 平成13年10月5日