next up previous contents
次へ: METEOR 上へ: 自動評価 戻る: 自動評価   目次

BLEU

BLEUは,機械翻訳システムの自動評価において,現在主流となっている評価法である. $N$-gram適合率を用いて,語順の正確さで評価を行う.実験では$4$-gramを用いる. 0から1のスコアで評価し,語順が正解文に近いとき高いスコアを出力する.BLEUの計算式を以下に示す.
$\displaystyle BLEU$ $\textstyle =$ $\displaystyle BP \times \exp \left\{\frac{1}{N} \sum\limits_{n = 1}^N {\log_e{P_{n}}} \right\}$ (3.1)
$\displaystyle P_{n}$ $\textstyle =$ $\displaystyle \frac{出力文と参照文で一致したn{\rm -gram数} }{出力文のn{\rm -gram}数 }$ (3.2)
$\displaystyle BP$ $\textstyle =$ $\displaystyle \min \left(1,\exp \left(1- \frac{参照文の語数}{出力文の語数} \right) \right)$ (3.3)

BLEUは1〜$N$-gramの適合率の幾何平均にBPをかけた式で表される. BP(Brevity Penaty)は,短い翻訳文が高いスコアになることを防ぐためのペナルティである.



平成25年2月13日