一般的なNMTにおける低頻度語

一般的なニューラル機械翻訳において,計算量削減の目的で語彙数を制限する手法が用いられる[4][1].この際,使用する語彙数を対訳学習文中における頻度が上位30,000語〜80,000語程度とし,それ以外の低頻度語は同一の特殊記号に置き換えられる. しかし,特殊記号は意味を持たない記号であるため,システムに低頻度語が入力された場合の正しい出力が学習されないという問題がある.



s142006 2018-03-06