Encoder-decoderモデルの枠組み

Encoder-Decoderモデルでは,Encoderは入力の系列 $\mbox{\boldmath$x$} = (x_1 , … , x_{Tx})$をベクトル$c$に符号化する. 一般的なEncoder-Decoderモデルでは1式および2式で表されるRNNを用いて構成される.
(1)


(2)

ここでは各時刻の隠れ層の状態であり,$c$は隠れ層を用いて生成されたベクトルである.およびは活性化関数であり,Sutskeverら[6]はにLSTMを用いた上, としている. Decoderは文脈ベクトル$c$と既に生成された単語 が与えられた際の次の単語を予測するように訓練され,結合確率を3式に示す条件式に分解することで翻訳文 を得る条件付き確率を定義している.

(3)

1式および2式で表されるRNNを用いて,それぞれの 条件付き確率は4式によりモデル化される.ここで,は非線形の多層関数であり,の確率を生成する.はRNNの隠れ層となる.

(4)



s142006 2018-03-06