ここで118#118は各時刻119#119の隠れ層の状態であり,115#115は隠れ層を用いて生成されたベクトルである. 7#7および120#120は活性化関数であり,基本的なEncoder-Decoderモデルにおいて,活性化関数7#7にはLSTMが用いられ, 121#121として定義されている. Decoderは文脈ベクトル115#115と既に生成された単語列 122#122が与えられた際の次の単語123#123を予測するように訓練され ,結合確率を2.29式に示す条件式に分解することで翻訳文 124#124125#125を得る条件付き確率を定義している.
2.27式および2.28式で表されるRNNを用いて, それぞれの 条件付き確率は2.30式によりモデル化される.ここで,129#129は123#123の確率を生成する非線形の多層関数であり,130#130はRNNの隠れ層の状態となる.