next up previous contents
次へ: 人手評価結果 上へ: 翻訳実験 戻る: 翻訳実験   目次

自動評価結果

テスト文を用いて,日英翻訳を行う.翻訳システムとして,句に基づく統計翻訳, ハイブリッド翻訳,ルールベース翻訳および階層型統計翻訳を用いる. それぞれの自動評価の結果を表[*]に示す.
=2pt
表: 自動評価結果
  ルールベース翻訳 ハイブリッド翻訳 句に基づく統計翻訳 階層型統計翻訳
BLEU 0.1320 0.1798 0.1341 0.1352
NIST 4.8260 5.5426 4.9239 4.9628
METEOR 0.4724 0.5078 0.4544 0.4551
IMPACT 0.4477 0.4854 0.4411 0.4476
RIBES 0.7281 0.7540 0.7114 0.7198
TER 0.7154 0.6526 0.7002 0.6834
WER 0.7393 0.6776 0.7296 0.7087

[*]の結果より,すべての自動評価において, ハイブリッド翻訳が最良の値を示した. しかし,ルールベース翻訳は,BLEU,NIST,TERおよびWERにおいて,最悪の値を示した.

また,METEOR,IMPACT,RIBESは,句に基づく統計翻訳において,最悪の値を示した.



平成24年3月13日