次へ: キーワード抽出
上へ: 要素技術について
戻る: Latent Dirichlet Allocation
目次
クラスタリングとはある事例集合について,類似する複数の事例をまとめていくつかの部分集合にすることをクラスタリングという.その部分集合のことをクラスタという.クラスタリングには階層型クラスタリングと非階層型クラスタリングがある.階層型クラスタリングには凝集法がある.N個の事例が与えられたとき,1個の対象を含むクラスタから始めて,クラスタ間の距離から逐次的に併合する方法である.一方,非階層型クラスタリングにはk-means法がある.本研究では,k-means法を用いることとする.
k-means法はランダムでクラスタに事例を割り振り,割り振った事例をもとに各クラスタの中心を計算する.計算は割り当てられた事例のベクトルの平均を用いる.全ての事例において,事例の属するクラスタの平均とそのデータとの距離が最小になるように,事例の属するクラスタを決め直すものである.
本研究では,クラスタリングのツールに,k-means法に対応しているbayon[7]を用いる.大規模なデータに対して,高速に実行可能である.
平成25年3月17日