next up previous contents
次へ: NIST 上へ: 自動評価 戻る: 自動評価   目次

BLEU

BLEUは,機械翻訳システムの自動評価において,現在主流になっている評価法である. BLEUは,N-gram適合率で比較を行う.実験では,4-gramを用いる.BLEUは, 0から1のスコアを出力し,スコアが1に近いほど良い評価である.BLEUの計算式を式3.1に示す.

100#100 24#24 101#101 (3.1)
102#102 24#24 103#103 (3.2)
104#104 24#24 105#105 (3.3)

ここで,BPは短い翻訳文が高い評価にならないように補正を行うパラメータである. また,106#106 はN-gramの重みである.



root 平成24年3月22日