next up previous contents
次へ: 2)METEOR 上へ: 翻訳の評価方法 戻る: 自動評価   目次

1)BLEU

BLEU(BiLingual Evaluation Understudy)は,機械翻訳システムの自動評価において,現在主流となっている評価法である.BLEUは語順(4-gram)が正しい場合に高いスコアを出力し,0から1までの値で評価を行う.BLEUの算出には,以下の式を用いる.


$\displaystyle \mathrm{BLEU} = BP_{BLEU} * exp(\frac{1}{N} \sum^N_{n=1} \log p_n)$     (2.7)

(2.7)式のNには,$ N = 4$ を用いる.$ BP_{BLEU}$ は翻訳文が正解文と比較して短い場合に用いるペナルティ係数である.これは,翻訳文が正解文よりも短い場合に適合率が上がってしまうことを回避するために用いられる. また,(2.7)式の$ p_n$ は以下の式で計算される.


$\displaystyle p_n$ $\displaystyle =$ $\displaystyle \frac{\sum\limits_{i} {出力文iと参照文iで\mbox{一致したN-gram数} }}
{\sum\limits_{i}\mbox{出力文iの中の\mbox{全N-gram数} }}$ (2.8)



平成25年2月13日