次へ: BLEU
上へ: 評価方法
戻る: 人手評価
目次
機械翻訳システムの翻訳精度を自動的に評価する手法として,あらかじめ用意し
た正解文と,翻訳システムが出力した文とを比較する手法が一般的である.自動
評価法には多くの方法がある.本研究では,BLEU[13]とNIST[14]
とMETEOR[15]とIMPACT[16]とRIBES[17]と
TER[18]とWER[18]を用いる.BLEUは語順(4-gram)が正しい場合に高いスコアを出す.
NISTではBLEUと同様に語順の正しさで比較を行うが,5-gramを用いる.
METEORは単語属性(3人称単数など)が正しい場合に高いスコアを出す.
IMPACTは,名詞句の塊が正しく配置されている場合に高いスコアを出す.
RIBESは,文全体の大局的な並びが正しい場合に高いスコアを出す.
TER(Translation Error Rate)は,翻訳結果から正解文に変換する手順を調べ,翻訳誤りの割合を出す.
WER(Word Error Rate)は,単語が正しく変換されているか調べて,単語誤りの割合を出す.
BLEUとMETEORとIMPACTとRIBESとTERとWERでは
0から1までの間で評価され,NISTでは0から∞までの間で評価される.
BLEUとNISTとMETEORとIMPACTとRIBESの評価方法は,評価方法が高いほど翻訳精度が高いことを表す.
TERとWERの評価方法は,評価方法が低いほど翻訳精度が高いことを表す.
尚,本研究では入力文1文に対して正解文1文を用いて評価を行う.
Subsections
root
平成24年3月22日