Encoder-decoderモデルの枠組み

1にEncoder-Decoderモデルの枠組みを示す. Encoder-Decoderモデルでは,Encoderは入力文を ベクトル系列 1#1として読み込み,ベクトル2#2に符号化する. 一般的なEncoder-Decoderモデルは,1式および2式で表されるRNNを用いて構成される.
3#3 (1)


4#4 (2)

ここで5#5は各時刻6#6の隠れ層の状態であり,2#2は隠れ層を用いて生成されたベクトルである. 7#7および8#8は活性化関数であり,基本的なEncoder-Decoderモデルにおいて,活性化関数7#7にはLSTMが用いられ, 9#9として定義されている[6]. Decoderは文脈ベクトル2#2と既に生成された単語列 10#10が与えられた際の次の単語11#11を予測するように訓練され ,結合確率を3式に示す条件式に分解することで翻訳文 12#12を得る条件付き確率を定義している.

13#13 (3)

1式および2式で表されるRNNを用いて, それぞれの 条件付き確率は4式によりモデル化される.ここで,14#1411#11の確率を生成する非線形の多層関数であり,15#15はRNNの隠れ層の状態となる.

16#16 (4)

図: Encoder-Decoderモデルの枠組み
17#17