next up previous contents
次へ: 翻訳実験 上へ: 実験環境 戻る: 提案手法   目次

評価方法

評価方法に自動評価と人手評価を用いる.自動評価にはBLEU[17],NIST[17],METEOR[18],RIBES[19],TER[20],WER[20]を用いる.BLEUは出力された翻訳文と正解翻訳文を4-gramで,単語列が正しいか評価する.NISTは,出力された翻訳文と正解翻訳文を5-gramで,単語訳が正しいか評価する.METEORは意味などの単語属性が正しいか評価する.RIBESは文全体の大局的な並びが正しいか評価する.TERは翻訳編集率であり,人間が機械翻訳結果の後編集を行った際のコストに着目した評価尺度である.WERは単語誤り率であり,音声認識の評価などで広く用いられる. BLEUとMETEORとRIBESにおける評価値の範囲は0から1であり,1が最大となる.TER,WERにおける評価値は0が最大となる.NISTにおける評価値の範囲は0から無限大であり,評価値が高いほど良い評価となる.

人手評価は翻訳文からランダムに100文取り出し,ベースラインとの対比較実験を行う.なお,評価基準は以下のようにする.



平成28年3月16日