図2.4にAttentionモデルの枠組みを示す.
Encoder-Decoderモデルにおいて2.29式で定義されていた条件付き確率に対して,Attentionモデルでは時刻57#57の時の条件付き確率を
2.31式により定義する.
Encoder-Decoderモデルにおける条件付き確率133#133は,既に出力された単語列と全ての入力系列113#113を変換した文脈ベクトルcにより定義されていたが,Attentionモデルにおいては入力系列を一つの文脈ベクトルのみに圧縮することなく,全ての入力系列113#113より導かれる.
134#134 135#135136#136 |
(39) |
また,137#137は時刻57#57での隠れ層の状態であり,2.32式により計算される.
ここで,2.29式のEncoder-Decoderモデルと異なり,各目的言語単語139#139は文脈ベクトル140#140により状態が与えられる.文脈ベクトル140#140はアノテーション系列
141#141に依存し,Encoderにより入力文と対応付けられる.
入力文の前後両方向より得られる各アノテーション142#142は全入力文の情報を保持しており,特に入力文中の57#57番目の単語付近の情報を強く対応付けている.また,2.33式に示す文脈ベクトル140#140はアノテーション142#142の重み付き和により計算される.
各アノテーション144#144の重み
145#145は
により計算される.ここで
は43#43番目付近の入力の対応およびi番目の出力の適合を示す値であり,アライメントモデルと呼ばれる.この値は139#139を出力する直前のRNNの隠れ層の状態148#148および入力文中の43#43番目のアノテーション144#144に基づいている.
Figure:
Attentionモデルの枠組み
149#149
|