next up previous contents
次へ: METEOR 上へ: 自動評価 戻る: 自動評価   目次

BLEU

BLEUは語順(4-gram)が正しい場合に高いスコアを出力し,0から1までの値で評価を行う.BLEUの算出には,以下の式を用いる.
$\displaystyle BLEU_{score}$ $\displaystyle =$ $\displaystyle BP \times \sqrt[N]{\prod^{N}_{i=1}P_{n}}$ (27)
$\displaystyle P_{n}$ $\displaystyle =$ $\displaystyle \frac{ \sum_{i} 出力文iと正解文iで一致したN-gramの数}
{\sum_{i}出力文iのN-gramの数}$ (28)

$ P_{n}$ は出力文と正解文のN-gramの一致率を表している.BLEU はこの一致率を1-gramから4-gramまで計算し,その幾何平均をとる.また,出力 文が正解文より短い場合,`` $ \sum_{i}出力文iのN-gramの数$ ''が小さくなり, 不当にスコアが高くなる可能性がある.そこで,正解文より短い文に対するペナ ルティとして,$ BP$ を用いる.$ BP$ は出力文が正解文より長い場合は1をとなり,出 力文が正解文より短い場合は1未満の値をとなる



平成23年4月12日