ここで, は時刻iでの隠れ層の状態であり, 2.37式により計算される.
確率は, Encoder-Decoderモデルと異なり, 各目的言語単語について文脈ベクトル により状態付けられる.文脈ベクトルはアノテーション系列 に依存し, Encoderにより入力文と対応付けられる.各アノテーションは特に入力文中のi番目の単語付近の情報を強く保有しており, さらに全入力文の情報を保持している.また, 2.38式に示す文脈ベクトルはアノテーションの重み付き和により計算される.
各アノテーションの重みは
により計算される.ここで
はj番目付近の入力の対応およびi番目の出力の適合を示す値であり, アライメントモデルと呼ばれる.この値は を出力する直前のRNNの隠れ層の状態および入力文中のj番目のアノテーションに基づいている.