Attentionモデルの枠組み

Attentionモデルでは2.36式の条件付き確率を 2.37式により定義する．

$\displaystyle p(y_i\vert\{y_1,\cdots,y_{i-1}\},c)=g(y_{i-1},s_i,c_i)$

(2.48)

ここで, $ s_i$ は時刻iでの隠れ層の状態であり, 2.37式により計算される．

$\displaystyle s_i=f(s_{i-1},y_{i-1},c_i)$

(2.49)

確率 $ s_i$ は, Encoder-Decoderモデルと異なり, 各目的言語単語について文脈ベクトルにより状態付けられる．文脈ベクトルはアノテーション系列に依存し, Encoderにより入力文と対応付けられる．各アノテーションは特に入力文中のi番目の単語付近の情報を強く保有しており, さらに全入力文の情報を保持している．また, 2.38式に示す文脈ベクトルはアノテーションの重み付き和により計算される．

(2.50)

各アノテーションの重みは

(2.51)

により計算される．ここで

(2.52)

はj番目付近の入力の対応およびi番目の出力の適合を示す値であり, アライメントモデルと呼ばれる．この値はを出力する直前のRNNの隠れ層の状態 $ s_i$ および入力文中のj番目のアノテーションに基づいている.