似た意味を持つ単語集合の作成

ネットワークの構築において出現する単語を同種の単語が出やすくなるようにするために,Google社が開発したWord2vec[4]内にある「単語のクラスタリング」を利用して,似た意味を持つ単語の集合(クラスタ)を作成する.

単語のクラスタリングとは,Word2vecにテキストデータを学習させ,単語をベクトル化する.そのベクトルのコサイン類似度を求め類似度の高い単語をまとめて単語のクラスタを作り,各クラスタにクラスタ番号を割り当てるものである. このクラスタ番号が一致している単語群を似た意味を持つ単語とする.

単語クラスタリングの一例を図3.1に示す.「ビデオカメラ」と「レンズ」がクラスタ番号2455,「パソコン」と「スマートフォン」がクラスタ番号2423,「市場」がクラスタ番号2703でまとまっている.


Figure 3.1: クラスタリングの一例
2#2