(1) |
で計算される。が注目する単語、
が周辺の単語、Vは語彙
と
は各単語の分散表現である。また、周辺語彙の範囲をCとして、
(2) |
という同時確率を考える。これは、注目単語に対して、前後の周辺語彙まで含めた確率であり、これが最大になるベクトルがよい表現であると仮定してニューラルネットワークで学習を行う。図1にニューラルネットワークを示す。隠れ層が分散表現になっている。入力層はone-hotベクトルであり、隠れ層から、対応する単語の分散表現を出力する。出力層の重みは隠れ層を転置したものであり、内積を計算する。そして、活性化関数としてソフトマックス関数を使用し、式3.2を最大化するように重み付けを行う。