そこで本研究では,NMTにおける新たな低頻度語処理の手法を提案し,システム全体の翻訳精度の向上を目指す. 本研究の提案手法では,まず学習時に,語彙数制限処理として対訳学習文中に1回のみ出現する単語(以下,頻度1単語)を全て特殊記号(unk)に置換し,学習を行う.これは,頻度1単語が低頻度語の中でも特に統計的信頼性が低いと考えられるためである. 次に翻訳時,Jeanら[2]によるunkの置換処理を行い,出力文中のunkをAttention確率が最も高い原言語単語(以下,未知語)に置き換える. 最後に未知語処理として出力文に含まれる未知語を対訳学習文とIBM Model 1により作成した対訳単語辞書を用いて置換する[3]手法を提案する.
結果として,出力文100文における人手評価結果では,低頻度語を含む全語彙を学習する方法と比較して,提案手法の方が良い例が36文,低頻度語を含む全語彙を学習する方法の方が良い例が18文となった. これより提案手法を用いることで,低頻度語を含む全語彙を学習する方法と比較して翻訳精度の向上が確認できた.