Next: 分類語彙表
Up: word2vecと分類語彙表
Previous: word2vecと分類語彙表
目次
word2vecはTomas Mikolov [7]らによって提案されたニューラルネットワーク(Skip-gram)の手法である.Skip-gramは,文脈を利用して与えられた単語と与えられた単語の周辺
に出現する単語を予測できるように,単語ベクトルの学習を行うモデルである.
Mikolovら [7]は、意味的に関連が強い単語はベクトルが近くなると主張している [3].例えば,「Java」「Perl」「Ruby」などはプログラミング言語として似た単語としてベクトルが近くなる.単語をベクトルに変換することで,人手で入力した単語のベクトルと近いベクトルの単語(類似した単語)を取得することができる.
また,類似した単語ベクトルを集めてクラス毎に分類することをクラスタリングという.本研究のクラスタリングのアルゴリズムとしてはk-
means法を用いる.k-means法のアルゴリズムを以下に述べる.
- 与えられたデータの中からランダムにk個の単語を取り出し,k個の単語をそれぞれ別の1つのクラスタに割り当て,k個のクラスタを作る.k個の単語がクラスタ中心となる.
- 残りの単語を,ベクトルの距離が最小となるクラスタ中心のクラスタに割り当てる.
- 割り当てられたクラスタ内の単語のベクトル平均値を求める.ベクトル平均値をクラスタ中心とする.
- 上記の2,3を繰り返す.繰り返し処理で得られた前の計算から,クラスタ距離に変化がない,または,繰り返し回数の上限に達した場合,現時点で割り振られたクラスタを出力する.
akano hokuto
2018-03-06