概要

近年,機械翻訳において,ニューラル機械翻訳(Neural Machine Translation; NMT)[1]が注目されている.NMTは,対訳学習文とニューラルネットワークを用いて入力の原言語文に対して最尤となる出力の目的言語文を得る確率を学習する機械翻訳の手法である. 本研究では,NMTの問題として,対訳学習文中に出現する頻度の低い単語(以下,低頻度語)の問題に着目する. NMTにおけるモデルの学習時,低頻度語を含む全語彙を学習した際に,システム全体の翻訳精度が低下するという可能性がある. この理由として,低頻度語は学習の確率値の統計的信頼性が低いこと,さらに対訳学習文中に多く出現することが考えられる.

そこで本研究では,NMTにおける新たな低頻度語処理の手法を提案し,システム全体の翻訳精度の向上を目指す. 本研究の提案手法では,まず学習時に,語彙数制限処理として対訳学習文中に1回のみ出現する単語(以下,頻度1単語)を全て特殊記号(unk$>$)に置換し,学習を行う.これは,頻度1単語が低頻度語の中でも特に統計的信頼性が低いと考えられるためである. 次に翻訳時,Jeanら[2]によるunk$>$の置換処理を行い,出力文中のunk$>$をAttention確率が最も高い原言語単語(以下,未知語)に置き換える. 最後に未知語処理として出力文に含まれる未知語を対訳学習文とIBM Model 1により作成した対訳単語辞書を用いて置換する[3]手法を提案する.

結果として,出力文100文における人手評価結果では,低頻度語を含む全語彙を学習する方法と比較して,提案手法の方が良い例が36文,低頻度語を含む全語彙を学習する方法の方が良い例が18文となった. これより提案手法を用いることで,低頻度語を含む全語彙を学習する方法と比較して翻訳精度の向上が確認できた.



s142006 2018-03-06