next up previous contents
次へ: キーワード抽出 上へ: 関連研究 戻る: 体験情報抽出   目次

クラスタリング

クラスタリングとは,幾つもの事例のうち,類似する複数の事例をまと めて1つのクラスタを形成し,また異なる事例から別のクラスタを形成 するということを繰り返し,事例集を分割することである.ここで,1 つの事例が複数のクラスタに属してよいクラスタリングのことを,ソフ トクラスタリングという.一方,1つのクラスタだけに限定することをハー ドクラスタリングという.

ハードクラスタリングとしてよく用いられる手法は,k-means法である. これは,得られるクラスタ数をあらかじめ指定しておき,クラスタに属 する事例から重心を求め,全ての事例について,事例の属するクラスタ の重心とその事例との距離の平均値が最小になるように,事例の属する クラスタを求めるものである.

k-means法の応用手法として,repeated bisection 法がある. この方法は,まず,すべての事例を1つのクラスタに格納し, 2分割のk-means法クラスタリングを繰り返し実行することで,事例集を分割するものである. この手法は,k-means法などと比較して,高速に実行でき,また精度も良好である.

本研究では,クラスタリングに,bayon[7]を用いる. bayonは repeated bisection 法を採用しているクラスタリングツールであり, シンプルな構成で,かつ大規模なデータでも実用的なスピードで実行できることを目標に 作成されている.


平成24年3月13日