Attentionモデルの枠組み

Attentionモデルでは2.36式の条件付き確率を 2.37式により定義する.

$\displaystyle p(y_i\vert\{y_1,\cdots,y_{i-1}\},c)=g(y_{i-1},s_i,c_i)$ (2.48)

ここで, $ s_i$ は時刻iでの隠れ層の状態であり, 2.37式により計算される.

$\displaystyle s_i=f(s_{i-1},y_{i-1},c_i)$ (2.49)

確率$ s_i$は, Encoder-Decoderモデルと異なり, 各目的言語単語について文脈ベクトル により状態付けられる.文脈ベクトルはアノテーション系列 に依存し, Encoderにより入力文と対応付けられる.各アノテーションは特に入力文中のi番目の単語付近の情報を強く保有しており, さらに全入力文の情報を保持している.また, 2.38式に示す文脈ベクトルはアノテーションの重み付き和により計算される.

(2.50)

各アノテーションの重み

(2.51)

により計算される.ここで

(2.52)

はj番目付近の入力の対応およびi番目の出力の適合を示す値であり, アライメントモデルと呼ばれる.この値は を出力する直前のRNNの隠れ層の状態$ s_i$および入力文中のj番目のアノテーションに基づいている.