手順3 : 文のクラスタリング

2.1節の手順3では，

-means法[4][5]というクラスタリング手法を用いて文をクラスタリングする．

-means法は，図2.2のようにK=2での

-means法による分割を繰り返し，ベイズ情報量 $BIC$

$BIC$

によって分割を停止するかを判定することで，クラスタ数を自動で決定するクラスタリング手法である．分割前のベイズ情報量 $BIC$

$BIC$

，分割後のベイズ情報量

に対し， $BIC \leq BIC'$ ならば分割を停止する．

変量正規分布を

$\begin{displaymath} f(\theta_i;x)=(2\pi)^{-p/2}\vert V_i\vert^{-1/2}\exp\left[\frac{1}{2}(x-\mu_i)^tV_i^{-1}(x-\mu_i)\right] \end{displaymath}$

と仮定すると，

$BIC$

は以下のように定義される．ここで $\hat{\theta_i}=[\hat{\mu_i},\hat{V_i}]$ は，

変量正規分布の最尤推定値とし， $\mu_i$ は

次の平均値ベクトル，

は $p \times p$ の分散共分散行列である．

はパラメータ空間の次元数で，

の共分散を無視すれば

であり，無視しなければ

である．

は尤度関数で $L(=\Pi f()$ である．

$\begin{displaymath} BIC=-2\log(L\hat{\theta_i};x_i \in C_i) + q\log{n_i} \end{displaymath}$

また，分割後の

は以下のように定義される．ここで $\hat{\theta_i'}=[\hat{\theta_i^1},\hat{\theta_i^2}]$ は，分割後の2つの各クラスタにおける

変量正規分布の最尤推定値とする．共分散を無視すると，各

に対し平均と分散の2つのパラメータが存在するので， $q'=2 \times 2p = 4p$ であり，無視しなければ

である．

$\begin{displaymath} BIC'=-2\log(L\hat{\theta_i'};x_i \in C_i) + q'\log{n_i} \end{displaymath}$

図: -means法のイメージ
$\includegraphics[clip,width=8cm]{.././EPS/Xmeans_Example.eps}$