BLEU

Next: METEOR Up: 評価手法 Previous: 自動評価法目次

BLEU

BLEU[8]は，機械翻訳の分野において，最も一般的な自動評価基準である．BLEUは，n-gramマッチ率に基づく手法を用いている．以下に計算式を示す．

$\displaystyle {\mathrm {BLEU}} = {\mathrm {BP_{BLEU}}} * exp(\frac{1}{N} \sum^N_{n=1} \log{p_n})$

(2.8)

出力される値の領域は0〜1であり，高いほど翻訳文が正解文に近いことを示す．式2.8のNには，一般的に $N = 4$ が用いられる． ${\mathrm {BP_{BLEU}}}$ は翻訳文が正解文と比較して短い場合に用いるペナルティ係数である．このペナルティは，翻訳文が正解文よりも短い場合に適合率が高くなる問題を回避するために用いられる． ${\mathrm {BP_{BLEU}}}$ は翻訳文の単語数を $c$ ，正解文の単語数を $r$ とし，以下の式で計算される．

$\begin{displaymath} {\mathrm {BP_{BLEU}}} = \left \{ \begin{array}{l} 1 \ \ \ \ ... ... > r)\\ e^{1-\frac{r}{c}} \ \ \ (c \leq r) \end{array}\right. \end{displaymath}$

(2.9)

翻訳文の文字数が正解文よりも長い場合には， ${\mathrm {BP_{BLEU}}} = 1$ となり，影響を及ぼさない．翻訳文の文字数が正解文よりも短い場合には，その短さに応じて， ${\mathrm {BP_{BLEU}}}$ が小さくなり，結果としてBLEU値が小さくなる．なお，単語数 $c$ と $r$ を算出するときの対象文は1文ではないため，各文の長さの自由度は残されている．また，式2.8の指数関数 $p_n$ は以下の式で計算される．

$\displaystyle p_n = \frac{\sum_{\mbox{全翻訳文}} \sum_{\mbox{正解文}} \m... ...\mbox{全翻訳文}} \sum_{\mbox{正解文}} \mbox{全 {\it N}-gram\mbox{数}}}$

(2.10)

$p_n$ は正解文と一致するN-gram数をカウントするとき，正解文の要素を重複して数えることを回避するための処理である．また，正解文に対して，翻訳文の方が長い場合には， $p_n$ の値は小さくなるため，BLEU値も小さくなる．

s122019 2018-02-15