BLEU

次へ: NIST 上へ: 自動評価 戻る: 自動評価目次

BLEU

BLEUは機械翻訳分野において，一般的に使用される自動評価の手法である．BLEUは語順(4-gram)が正しい場合に高いスコアを出す． BLEUは以下の式で計算される．

$\displaystyle BLEU_{score}$	$\textstyle =$	$\displaystyle BP \times exp \left( \sum_{n=1}^N \frac{1}{N} \log p_n \right)$	(3.1)
$\displaystyle p_n$	$\textstyle =$	$\displaystyle \frac{ \displaystyle\sum_{i} \mbox{出力文{\it i}と正解文{\it i}で... ...\it N}-gramの数}} {\displaystyle\sum_{i}\mbox{出力文{\it i}の{\it N}-gramの数}}$	(3.2)

ここで， $P_{n}$ は出力文と正解文のN-gramの一致率を表している． BLEUはこの一致率を1-gramから4-gramまで計算し，その幾何平均をとる．また，出力文が正解文より短い場合，`` $\displaystyle\sum_{i}$ 出力文iのN-gramの数''が小さくなり，不当にスコアが高くなる可能性がある．そこで，正解文より短い文に対するペナルティとして， $BP$ を用いる． $BP$ の条件式を以下に示す．