129#129 | 3#3 | 130#130 | (5.4) |
131#131 | 3#3 | exp132#132 log133#133 | (5.5) |
134#134 | 3#3 | log135#135 | (5.6) |
ここで,136#136 は出力文が参照文より短い場合のペナルティ係数であり,評価する出力文の単語数をc,全ての参照文を対象として参照文の平均単語数をrとしている.これにより,参照文に比べて非常に短い出力文には強いペナルティが課せられ,評価がより低くなり,参照文に長さが近い出力文に課せられるペナルティは軽減され,評価に影響を与えなくなる. 137#137 は情報量の重みを示す.これにより,より出現頻度の低いN-gram,即ち,より情報量多いN-gramがより重み付けされる.2-gramの場合で簡単に説明する.例えば,評価コーパス中に``the''が10回出現し,9回が``the cat''というフレーズであり,1回が``the dog''というフレーズであったとする.この場合には,明らかに1回しか出現しない``the dog''の方が他にない情報を与えてくれる.即ち,情報量が多い.逆に,9回出現する``the cat''の1つ1つが持つ情報量は少ない.この場合に5.6式より,``the dog''がより重み付けされる.具体的には,``the dog''は5.6式による計算値が 138#138 となり,``the cat''の計算値は 139#139 となる.このように,NISTでは,出力文の内容の正しさに比重を置いた精度判断がされる.