次へ: 翻訳実験 上へ: 実験環境 戻る: デコーダーに関するパラメータ目次

評価方法

評価方法に人手評価と自動評価を用いる．人手評価は翻訳文からランダムに100文取り出し，文法構造変換を行わない実験(ベースライン)との対比較実験を行う．自動評価にはBLEU[12]，NIST[12]，METEOR[13]，RIBES[14]を用いる．

BLEUは出力された翻訳文と正解翻訳文を4-gramで，単語列が正しいか評価する．NIST scoreは，出力された翻訳文と正解翻訳文を5-gramで，単語訳が正しいか評価する．METEORは意味などの単語属性が正しいか評価する．RIBESは文全体の大局的な並びが正しいか評価する．BLEUとMETEORとRIBESにおける評価値の範囲は0から1であり，1が最大となる．NISTにおける評価値の範囲は0から無限大であり，評価値が高いほど良い評価となる．

平成26年3月29日