BLEUは,機械翻訳システムの自動評価において,現在主流になっている評価法である.
BLEUは,N-gram適合率で比較を行う.実験では,4-gramを用いる.BLEUは,
0から1のスコアを出力し,スコアが1に近いほど良い評価である.BLEUの計算式を式3.1に示す.
100#100 | 24#24 | 101#101 | (3.1) |
102#102 | 24#24 | 103#103 | (3.2) |
104#104 | 24#24 | 105#105 | (3.3) |
ここで,BPは短い翻訳文が高い評価にならないように補正を行うパラメータである. また,106#106 はN-gramの重みである.