Attentionモデル

Encoder-Decoderモデルの問題は,学習に用いた対訳学習文以上の長さの入力文を翻訳した場合に,翻訳精度が極端に低下する点である.

Attentionモデルは,この問題を解決するために提案されたNMTのモデルである.AttentionモデルのEncoderは,入力単語を前後両方向からRNNに渡す手法を用いる.Encoderは,入力文を前から読み込んだノードと後ろから読み込んだノードを組み合わせて各単語を符号化する.Decoderでは,モデルが出力文中にある単語を生成する際に,生成した単語のベクトルと対訳学習文から次の単語を予測して出力文を出力する。Attentionモデルは,Encoder-Decoderモデルと異なり,入力文の情報を出力文中の単語生成時に参照することで,より長い入力文の翻訳精度の向上を実現している.