next up previous contents
次へ: NIST 上へ: 自動評価 戻る: 自動評価   目次

BLEU

BLEU(Bilingual Evalation Understudy)は予め用意された参照文と比較して,語順が正しい場合に高いスコアを出す.BLEUは5.1式で計算される.

119#119 3#3 120#120   exp121#121 (5.1)
122#122 3#3 123#123 (5.2)
124#124 3#3 125#125 (5.3)

ここで,126#126 は出力文の単語数をc,参照文の単語数をrとしており,出力文の文字数が参照文より長い場合は1であり,BLEUスコアに対して影響を及ぼさない.一方,出力文の文字数が参照文より短い場合は,その短さに応じて126#126 が小さくなり,結果としてBLEUスコアが小さくなる.127#127 は参照文と一致するN-gram数を数える際に参照文の要素を重複して数えないように処理を行う.例えば,出力文が``the the the the'',参照文が``This is the best buy''である場合に修正されない場合,出力文の``the''と一致するものとして参照文の``the''が重複して数えられ,128#128 =5/5となる.しかし,修正されると,重複して数えないため,128#128 =1/5となる.また,参照文に対して出力文の方が長い場合,127#127 の値が小さくなる.即ち,BLEUスコアが小さくなるため,出力文が参照文より長くなる場合のペナルティが式に含まれていることがわかる.



平成24年3月23日