next up previous contents
次へ: BLEU 上へ: 評価方法 戻る: 人手評価   目次

自動評価

機械翻訳システムの翻訳精度を自動的に評価する手法として,あらかじめ用意し た正解文と,翻訳システムが出力した文とを比較する手法が一般的である.自動 評価法には多くの方法がある.本研究では,BLEU[13]とNIST[14] とMETEOR[15]とIMPACT[16]とRIBES[17]と TER[18]とWER[18]を用いる.BLEUは語順(4-gram)が正しい場合に高いスコアを出す. NISTではBLEUと同様に語順の正しさで比較を行うが,5-gramを用いる. METEORは単語属性(3人称単数など)が正しい場合に高いスコアを出す. IMPACTは,名詞句の塊が正しく配置されている場合に高いスコアを出す. RIBESは,文全体の大局的な並びが正しい場合に高いスコアを出す. TER(Translation Error Rate)は,翻訳結果から正解文に変換する手順を調べ,翻訳誤りの割合を出す. WER(Word Error Rate)は,単語が正しく変換されているか調べて,単語誤りの割合を出す. BLEUとMETEORとIMPACTとRIBESとTERとWERでは 0から1までの間で評価され,NISTでは0から∞までの間で評価される. BLEUとNISTとMETEORとIMPACTとRIBESの評価方法は,評価方法が高いほど翻訳精度が高いことを表す. TERとWERの評価方法は,評価方法が低いほど翻訳精度が高いことを表す. 尚,本研究では入力文1文に対して正解文1文を用いて評価を行う.



Subsections

root 平成24年3月22日