next up previous contents
次へ: 翻訳実験 上へ: 実験環境 戻る: デコーダーに関するパラメータ   目次

評価方法

機械翻訳の翻訳を自動的に評価する方法は,あらかじめ実験者が用意した正解翻訳文と機械翻訳によって出力された翻訳文を比較する方法が一般的である.自動評価の方法は多く存在する.本研究では,BLEU(Bilingual Evaluation Understudy)[13],NIST score(National Institute of Standard's and Technology score)[13],METEOR(Metric for Evaluation of Translation with Explicit ORdering)[14]を使用する.

BLEUは出力された翻訳文と正解翻訳文を4-gramで,単語列が正しいか評価する.NIST scoreは,出力された翻訳文と正解翻訳文を5-gramで,単語訳が正しいか評価する.METEORは意味などの単語属性が正しいか評価する.BLEUとMETEORにおける評価値の範囲は0から1であり,1が最大となる.NISTにおける評価値の範囲は0から無限大であり,評価値が高いほど良い評価となる.


平成21年3月19日