Next: 人手評価
Up: 未知語の翻訳
Previous: 使用データ
目次
自動評価は,入力文1,000文と各モデルで作成した対訳単語辞書を用いて行う.自動評価には,BLEU[15],METEOR[16],RIBES[17],TER[18]を用いる.
未知語処理した(各モデルの対訳単語辞書を用いる)場合と,未知語処理しない(対訳単語辞書なし)場合の自動評価結果を表6.4.2に示す.
表:
自動評価結果
モデル |
BLEU |
METEOR |
RIBES |
TER |
Model1 |
0.200 |
0.486 |
0.783 |
0.581 |
Model2 |
0.200 |
0.486 |
0.783 |
0.581 |
Model3 |
0.200 |
0.486 |
0.783 |
0.581 |
Model4 |
0.200 |
0.486 |
0.784 |
0.581 |
Model5 |
0.201 |
0.486 |
0.783 |
0.581 |
なし |
0.200 |
0.485 |
0.782 |
0.582 |
表6.4.2より,自動評価は全てのモデルでほとんど差がなかった.この結果の要因の1つは,未知語処理が正しく行われた場合でも,文全体の自動評価結果にはあまり影響しないためであると考えている.
2019-03-08