next up previous contents
次へ: METEOR 上へ: 自動評価 戻る: BLEU   目次

NIST

NIST(National Institute of Standards and Technology)もBLEUと同様に予め用意された参照文と比較し,語順が正しい場合に高いスコアを出す.BLEUと異なる点として,NISTは情報量による重み付けを行う点と5-gramで評価する点である.

129#129 3#3 130#130 (5.4)
131#131 3#3 exp132#132   log133#133 (5.5)
134#134 3#3 log135#135 (5.6)

ここで,136#136 は出力文が参照文より短い場合のペナルティ係数であり,評価する出力文の単語数をc,全ての参照文を対象として参照文の平均単語数をrとしている.これにより,参照文に比べて非常に短い出力文には強いペナルティが課せられ,評価がより低くなり,参照文に長さが近い出力文に課せられるペナルティは軽減され,評価に影響を与えなくなる. 137#137 は情報量の重みを示す.これにより,より出現頻度の低いN-gram,即ち,より情報量多いN-gramがより重み付けされる.2-gramの場合で簡単に説明する.例えば,評価コーパス中に``the''が10回出現し,9回が``the cat''というフレーズであり,1回が``the dog''というフレーズであったとする.この場合には,明らかに1回しか出現しない``the dog''の方が他にない情報を与えてくれる.即ち,情報量が多い.逆に,9回出現する``the cat''の1つ1つが持つ情報量は少ない.この場合に5.6式より,``the dog''がより重み付けされる.具体的には,``the dog''は5.6式による計算値が 138#138 となり,``the cat''の計算値は 139#139 となる.このように,NISTでは,出力文の内容の正しさに比重を置いた精度判断がされる.



平成24年3月23日