手順3 : 文のクラスタリング
2.1節の手順3では,-means法[4][5]というクラスタリング手法を用いて文をクラスタリングする.
-means法は,図2.2のようにK=2での-means法による分割を繰り返し,ベイズ情報量によって分割を停止するかを判定することで,クラスタ数を自動で決定するクラスタリング手法である.分割前のベイズ情報量,分割後のベイズ情報量に対し,ならば分割を停止する.
変量正規分布を
と仮定すると,は以下のように定義される.ここで
は,変量正規分布の最尤推定値とし,
は次の平均値ベクトル,はの分散共分散行列である.はパラメータ空間の次元数で,の共分散を無視すればであり,無視しなければである.は尤度関数でである.
また,分割後のは以下のように定義される.ここで
は,分割後の2つの各クラスタにおける変量正規分布の最尤推定値とする.共分散を無視すると,各に対し平均と分散の2つのパラメータが存在するので,
であり,無視しなければである.
図:
-means法のイメージ
|