ここでは各時刻tの隠れ層の状態であり, cは隠れ層を用いて生成されたベクトルである.
fおよびqは活性化関数であり,
Sutskeverら[5]
はfにLSTMを用いた上,
としている.
Decoderは文脈ベクトルcと既に生成された単語
が与えられた際の次の単語
を予測するように訓練され, 結合確率を
2.34式に示す条件式に分解することで翻訳文
を得る条件付き確率を定義している.
2.33式および2.34式で表されるRNNを用いて, それぞれの条件付き確率は
2.35式によりモデル化される.
ここで, gは非線形の多層関数であり, の確率を生成する.
はRNNの隠れ層となる.