next up previous contents
次へ: METEOR 上へ: 評価方法 戻る: BLEU   目次

NIST

NISTはBLEUと類似する自動評価法である.NISTは以下の式を用いて評価値の計算を行う.


$\displaystyle NIST = BP_{NIST} * \sum^N_{n=1} \frac{\sum_{\mbox{全翻訳文}} \sum...
...ots w_n)}{\sum_{\mbox{全翻訳文}} \sum_{\mbox{正解文}} \mbox{全 {\it N}-gram数}}$     (3.32)

NISTの値域は0〜∞であり,高いほど翻訳精度が高い.\(BP_{NIST}\)は翻訳文が正解文と比較して短い場合に用いるペナルティ係数である.翻訳文の単語数を\(c\),全ての正解文を対象とした正解文の平均単語数を\(r\)とし,以下の式で計算される.


$\displaystyle BP_{NIST} = exp\{\beta \log^2 [min(\frac{c}{r}), 1]\}$     (3.33)

(3.33)式の\(\beta\) \(\frac{c}{r} = \frac{2}{3}\)のとき,\(BP_{NIST}\)の値が0.5となるように選択される.つまり,\(\beta\)の値は以下の計算で行われる.


$\displaystyle 0.5$ $\textstyle =$ $\displaystyle exp\{\beta \log^2 (\frac{2}{3})\}$ (3.34)
$\displaystyle \log 0.5$ $\textstyle =$ $\displaystyle \beta \log^2 (\frac{2}{3})$ (3.35)
$\displaystyle \beta$ $\textstyle =$ $\displaystyle \frac{\log 0.5}{log^2 (\frac{2}{3})}$ (3.36)

この選択によって,正解文と比較して非常に短い翻訳文に対して協力なペナルティが与えられ,評価値がより小さくなる.反対に,正解文と長さが近い翻訳文に対するペナルティは軽減され,評価への影響が小さくなる.また,(3.32)式の \(Info(w_1 \cdots w_n)\)は以下の式で定義される.
$\displaystyle Info(w_1 \cdots w_n) = log_2 \frac{\mbox{評価コーパス中の}w_1 \cdots w_{n-1} \mbox{数}}{\mbox{評価コーパス中の}w_1 \cdots w_{n} \mbox{数}}$     (3.37)

より頻度の低いN-gram,つまり,より情報量の多いN-gramがより重み付けされる.例えば,bi-gramの場合を考えると,評価コーパスにおいて``a''が5回出現し,そのうち4回が``a pen''であり,1回が``a pencil''であったとする.この場合には,1回しか出現しない``a pencil''の情報量が多いと言える.反対に,4回出現する``a pen''のそれぞれ1つずつの持つ情報量は少ない.したがって,この場合では,(3.37)式によって,``a pencil''がより重み付けされる.



平成24年3月23日