Attentionモデルの枠組み

2にAttentionモデルの枠組みを示す. Encoder-Decoderモデルにおいて3式で定義されていた条件付き確率に対して,Attentionモデルでは時刻18#18の時の条件付き確率を 5式により定義する. Encoder-Decoderモデルにおける条件付き確率19#19は,既に出力された単語列と全ての入力系列20#20を変換した文脈ベクトルcにより定義されていたが,Attentionモデルにおいては入力系列を一つの文脈ベクトルのみに圧縮することなく,全ての入力系列20#20より導かれる.
21#21 (5)

また,22#22は時刻18#18での隠れ層の状態であり,6式により計算される.

23#23 (6)

ここで,3式のEncoder-Decoderモデルと異なり,各目的言語単語24#24は文脈ベクトル25#25により状態が与えられる.文脈ベクトル25#25はアノテーション系列 26#26に依存し,Encoderにより入力文と対応付けられる. 入力文の前後両方向より得られる各アノテーション27#27は全入力文の情報を保持しており,特に入力文中の18#18番目の単語付近の情報を強く対応付けている.また,7式に示す文脈ベクトル25#25はアノテーション27#27の重み付き和により計算される.
28#28 (7)

各アノテーション29#29の重み30#30

31#31 (8)

により計算される.ここで
32#32 (9)

33#33番目付近の入力の対応およびi番目の出力の適合を示す値であり,アライメントモデルと呼ばれる.この値は24#24を出力する直前のRNNの隠れ層の状態34#34および入力文中の33#33番目のアノテーション29#29に基づいている.

図: Attentionモデルの枠組み
35#35