next up previous contents
次へ: METEOR 上へ: 自動評価 戻る: 自動評価   目次

BLEU

BLEU[3]は,機械翻訳システムの自動評価において,現在主流な評価法である. BLEUは,16#16-gram適合率で評価を行う.実験では28#28-gramを用いる. BLEUは0から1のスコアを算出し,スコアが大きい方が良い評価である.BLEUの計算式を以下に示す.
29#29 9#9 30#30 (3.1)
31#31 9#9 32#32 (3.2)
33#33 9#9 34#34 (3.3)

ここで,BPは短い翻訳文が高い評価にならないように補正を行うパラメータである. また35#35は16#16-gramの重みである. 具体的な計算例を以下に示す.

[
c]例 日本語文:お先 に 失礼 し ます 。
参照文:Excuse me , I must be going now .
出力文:Excuse me , but I mest be going now .

計算方法
参照文と出力文の16#16-gramより計算を行うと

36#36     (3.4)

これらのスコアを計算式に代入すると

37#37 9#9 38#38 (3.5)
  9#9 39#39 (3.6)
  9#9 40#40 (3.7)

またBLEUは,英語とフランス語などの文法構造が近い言語間において,人手評価と評価が一致する場合が多い. しかし,英語と日本語などの文法構造が異なる言語間において,人手評価と評価が一致しない場合がある. 原因として,BLEUは部分的な単語列の一致数を調べ,スコアを求めていることが挙げられる. そのため,参照文との比較において,同一の単語列を局所的に含む出力文が高いスコアを算出する. したがって,出力文において,文法的な誤りが存在しても高いスコアを算出してしまう. 表[*]に具体的な例文を示す.なお,表[*]に対応するBLEUスコアを表[*]に示す.


=5pt
表: 翻訳例
入力文 その 機械 の 構造 に は 欠陥 が ある 。
出力文1 The structure of the machine has a defect .
出力文2 The structure of the is a fault in the machine .
参照文 There is a fault in the machine 's construction .


=30pt
表: 1文におけるBLEUスコア
出力文1 BLEU=0.000
出力文2 BLEU=0.367

[*]より,出力文1と出力文2を比較すると, 1文におけるBLEUスコアは,出力文2が 良い評価となる. しかし出力文2は``the is"と出力されているので,文法的に誤っている.


next up previous contents
次へ: METEOR 上へ: 自動評価 戻る: 自動評価   目次
平成26年3月10日