単語のクラスタリングとは,Word2vecにテキストデータを学習させ,単語をベクトル化する.そのベクトルのコサイン類似度を求め類似度の高い単語をまとめて単語のクラスタを作り,各クラスタにクラスタ番号を割り当てるものである. このクラスタ番号が一致している単語群を似た意味を持つ単語とする.
単語クラスタリングの一例を図3.1に示す.「ビデオカメラ」と「レンズ」がクラスタ番号2455,「パソコン」と「スマートフォン」がクラスタ番号2423,「市場」がクラスタ番号2703でまとまっている.