ここでは各時刻の隠れ層の状態であり,は隠れ層を用いて生成されたベクトルである.およびは活性化関数であり,Sutskeverら[6]はにLSTMを用いた上,
としている.
Decoderは文脈ベクトルと既に生成された単語
が与えられた際の次の単語を予測するように訓練され,結合確率を3式に示す条件式に分解することで翻訳文
を得る条件付き確率を定義している.
1式および2式で表されるRNNを用いて,それぞれの
条件付き確率は4式によりモデル化される.ここで,は非線形の多層関数であり,の確率を生成する.はRNNの隠れ層となる.