next up previous contents
次へ: 翻訳実験 上へ: 実験環境 戻る: デコーダーに関するパラメータ   目次

評価方法

評価方法に人手評価と自動評価を用いる.人手評価は翻訳文からランダムに100文取り出し,文法構造変換を行わない実験(ベースライン)との対比較実験を行う.自動評価にはBLEU[12],NIST[12],METEOR[13],RIBES[14]を用いる.

BLEUは出力された翻訳文と正解翻訳文を4-gramで,単語列が正しいか評価する.NIST scoreは,出力された翻訳文と正解翻訳文を5-gramで,単語訳が正しいか評価する.METEORは意味などの単語属性が正しいか評価する.RIBESは文全体の大局的な並びが正しいか評価する.BLEUとMETEORとRIBESにおける評価値の範囲は0から1であり,1が最大となる.NISTにおける評価値の範囲は0から無限大であり,評価値が高いほど良い評価となる.



平成26年3月29日