提案手法

NMTにおいて,学習時に低頻度語を含む全語彙を用いて学習を行った場合,システム全体の翻訳精度が低下する可能性がある. この理由として,低頻度語は学習の確率値の統計的信頼性が低いこと,さらに対訳学習文中の語彙の多くを占めることが挙げられる. そこで,提案手法では学習時に低頻度語の中でも特に統計的信頼性が低いと考えられる頻度1単語を,特殊記号unk$>$に置き換える方法を用いる. この方法を用いた場合,低頻度語を含む文の翻訳において,精度が低下する,あるいは出力文中にunk$>$が生成される可能性がある.提案手法ではこの問題を解決するため,対訳学習文とIBM Model 1を用いて学習した対訳単語辞書を用いる.出力文中のunk$>$を,Jeanら[2]の手法により入力文中の原言語単語(以下,未知語)に置き換え,川原ら[3]の手法により対訳単語辞書を用いて未知語を翻訳する.以上の方法により,翻訳精度の向上を試みる.



Subsections

s142006 2018-03-06