出力される値の領域は0〜1であり,高いほど翻訳文が正解文に近いことを示す.式2.8のNには,一般的にが用いられる. は翻訳文が正解文と比較して短い場合に用いるペナルティ係数である.このペナルティは,翻訳文が正解文よりも短い場合に適合率が高くなる問題を回避するために用いられる. は翻訳文の単語数を,正解文の単語数をとし,以下の式で計算される.
(2.9) |
翻訳文の文字数が正解文よりも長い場合には, となり,影響を及ぼさない.翻訳文の文字数が正解文よりも短い場合には,その短さに応じて, が小さくなり,結果としてBLEU値が小さくなる.なお,単語数とを算出するときの対象文は1文ではないため,各文の長さの自由度は残されている.また,式2.8の指数関数は以下の式で計算される.
(2.10) |
は正解文と一致するN-gram数をカウントするとき,正解文の要素を重複して数えることを回避するための処理である.また,正解文に対して,翻訳文の方が長い場合には,の値は小さくなるため,BLEU値も小さくなる.