next up previous contents
次へ: NIST 上へ: 自動評価 戻る: 自動評価   目次

BLEU

BLEUは機械翻訳分野において,一般的に使用される自動評価の手法である.BLEUは語順(4-gram)が正しい場合に高いスコアを出す. BLEUは以下の式で計算される.
$\displaystyle BLEU_{score}$ $\textstyle =$ $\displaystyle BP \times exp \left( \sum_{n=1}^N \frac{1}{N} \log p_n \right)$ (3.1)
$\displaystyle p_n$ $\textstyle =$ $\displaystyle \frac{ \displaystyle\sum_{i} \mbox{出力文{\it i}と正解文{\it i}で...
...\it N}-gramの数}}
{\displaystyle\sum_{i}\mbox{出力文{\it i}の{\it N}-gramの数}}$ (3.2)

ここで,$P_{n}$は出力文と正解文のN-gramの一致率を表している. BLEUはこの一致率を1-gramから4-gramまで計算し,その幾何平均をとる. また,出力文が正解文より短い場合,`` $\displaystyle\sum_{i}$出力文iN-gramの数''が小さくなり,不当にスコアが高くなる可能性がある. そこで,正解文より短い文に対するペナルティとして,$BP$を用いる.$BP$の条件式を以下に示す.

$\displaystyle BP$ $\textstyle =$ $\displaystyle \left\{
\begin{array}{ll}
1 & (c>r)\\
e^{1- \frac{r}{c}} & (c\leq r) \\
\end{array} \right.$ (3.3)

ここで,$c$は出力文の単語数,$r$は正解文の単語数を表している. 出力文が正解文より長い場合は$BP=1$となり,出力文が正解文より短い場合は,その短さに応じてBPが小さくなり,BLEU値も小さくなる. BLEUは0から1の値をスコアとして出力し,スコアの値が高いほど翻訳精度が高いことを示す.



s102025 平成27年3月9日