ここで5#5は各時刻6#6の隠れ層の状態であり,2#2は隠れ層を用いて生成されたベクトルである.
7#7および8#8は活性化関数であり,基本的なEncoder-Decoderモデルにおいて,活性化関数7#7にはLSTMが用いられ,
9#9として定義されている[6].
Decoderは文脈ベクトル2#2と既に生成された単語列
10#10が与えられた際の次の単語11#11を予測するように訓練され
,結合確率を3式に示す条件式に分解することで翻訳文
12#12を得る条件付き確率を定義している.
1式および2式で表されるRNNを用いて,
それぞれの
条件付き確率は4式によりモデル化される.ここで,14#14は11#11の確率を生成する非線形の多層関数であり,15#15はRNNの隠れ層の状態となる.