評価実験

実験ではNMTの学習データに対訳文のみを用いる手法をベースラインとし，対訳文に人手対訳句を追加した学習データを用いる手法(+人手対訳句)，対訳文に自動対訳句を追加した学習データを用いる手法(+自動対訳句) の2つの対訳句追加手法をそれぞれベースラインと比較する．

翻訳精度の評価方法として，自動評価では実験において得られた10,000文の出力文に対して，4つの自動評価指標(BLEU，METEOR，RIBES，WER¹)に基づいて評価を行う．人手対比較評価では出力文10,000文より無作為に抽出した100文に対して，正確性(adequacy:入力文の意味をどれだけ正確に翻訳文より読み取れるか) に基づいて人手対比較評価を行う．