おわりに

本研究ではNMTにおける低頻度語の問題に着目し,翻訳精度向上を目的とする低頻度語処理の手法を提案した. NMTにおけるモデルの学習時,低頻度語を含む全語彙を学習した際に,システム全体の翻訳精度が低下するという可能性がある. この理由として,低頻度語は学習の確率値の統計的信頼性が低いこと,さらに対訳学習文中に多く出現することが考えられる.

そこで本研究では,NMTにおける新たな低頻度語処理の手法を提案し,システム全体の翻訳精度の向上を試みた. 本研究の提案手法では,まず学習時に,語彙数制限処理として対訳学習文中に1回のみ出現する単語を全て特殊記号(unk$>$)に置換し,学習を行う. 次に翻訳時,Jeanら[2]によるunk$>$の置換処理を行い,出力文中のunk$>$をAttention確率が最も高い原言語単語に置き換える. 最後に未知語処理として出力文に含まれる未知語を対訳学習文とIBM Model 1により作成した対訳単語辞書を用いて置換する[3].結果として,出力文100文における人手評価では提案手法○が36文,提案手法×が18文となった.これより,提案手法を用いた場合,ベースラインと比較して翻訳精度が向上することが確認できる. また, 表7.4,表7.15より, 本研究の実験結果は,低頻度語の学習がNMTのシステム全体の翻訳精度の低下を招くという仮説を裏付ける結果となっていることがわかる.



s142006 2018-03-06