next up previous contents
次へ: NIST 上へ: 自動評価 戻る: 自動評価   目次

BLEU

BLEUは,機械翻訳システムの自動評価において,現在主流となっている評価法である. BLEUは,22#22-gram適合率で評価を行う.実験では31#31-gramを用いる. BLEUは0から1のスコアを出力し,スコアが大きい方が良い評価である.BLEUの計算式を以下に示す.
32#32 9#9 33#33 (3.1)
34#34 9#9 35#35 (3.2)
36#36 9#9 37#37 (3.3)

ここで,BPは短い翻訳文が高い評価にならないように補正を行うパラメータである. また38#38は22#22-gramの重みである. 具体的な計算例を以下に示す.

[
c]例 日本語文:お先 に 失礼 し ます 。
参照文:Excuse me , I must be going now .
出力文:Excuse me , but I mest be going now .

計算方法
参照文と出力文の22#22-gramより計算を行うと

39#39     (3.4)

これらのスコアを計算式に代入すると

40#40 9#9 41#41 (3.5)
  9#9 42#42 (3.6)
  9#9 43#43 (3.7)

またBLEUは,英語とフランス語のような文法構造が近い言語間において,人手評価と一致する場合が多い. しかし,英語と日本語のような文法構造が異なる言語間においては,人手評価と一致しない場合がある. 原因として,BLEUは部分的な単語列の一致数を調べることにより,スコアを求めていることが挙げられる. そのため,参照文との比較において,同一の単語列を局所的に含む出力文が高いスコアを算出する. したがって,出力文において,文法的な誤りが存在しても高いスコアを算出してしまう. 表[*]に具体的な例文を示す.なお,表[*]に対応するBLEUスコアを表[*]に示す.


=5pt
表: 翻訳例
入力文 その 機械 の 構造 に は 欠陥 が ある 。
出力文1 The structure of the machine has a defect .
出力文2 The structure of the is a fault in the machine .
参照文 There is a fault in the machine 's construction .


=30pt
表: 1文におけるBLEUスコア
出力文1 BLEU=0.000
出力文2 BLEU=0.367

[*]より,出力文1と出力文2を比較すると, 1文におけるBLEUスコアは,出力文2が 良い評価となる. しかし出力文2は``the is"と出力されているので,文法的な誤りを含んでいる.


next up previous contents
次へ: NIST 上へ: 自動評価 戻る: 自動評価   目次
平成24年3月13日