評価実験

実験ではNMTの学習データに対訳文のみを用いる手法をベースラインとし, 対訳文に人手対訳句を追加した学習データを用いる手法(+人手対訳句), 対訳文に自動対訳句を追加した学習データを用いる手法(+自動対訳句) の2つの対訳句追加手法をそれぞれベースラインと比較する.

翻訳精度の評価方法として,自動評価では実験において得られた10,000文の出力文に対して,4つの自動評価指標(BLEU,METEOR,RIBES,WER1)に基づいて評価を行う.人手対比較評価では出力文10,000文より無作為に抽出した100文に対して,正確性(adequacy:入力文の意味をどれだけ正確に翻訳文より読み取れるか) に基づいて人手対比較評価を行う.