BLEU

次へ: NIST 上へ: 自動評価 戻る: 自動評価目次

BLEU

BLEUは，機械翻訳システムの自動評価において，現在主流となっている評価法である． BLEUは，22#22-gram適合率で評価を行う．実験では31#31-gramを用いる． BLEUは0から1のスコアを出力し，スコアが大きい方が良い評価である．BLEUの計算式を以下に示す．

32#32	9#9	33#33	(3.1)
34#34	9#9	35#35	(3.2)
36#36	9#9	37#37	(3.3)

ここで，BPは短い翻訳文が高い評価にならないように補正を行うパラメータである．また38#38は22#22-gramの重みである．具体的な計算例を以下に示す．

[
c]例日本語文：お先に失礼します。
参照文：Excuse me , I must be going now .
出力文：Excuse me , but I mest be going now .

計算方法
参照文と出力文の22#22-gramより計算を行うと

39#39

(3.4)

これらのスコアを計算式に代入すると

40#40	9#9	41#41	(3.5)
	9#9	42#42	(3.6)
	9#9	43#43	(3.7)

またBLEUは，英語とフランス語のような文法構造が近い言語間において，人手評価と一致する場合が多い．しかし，英語と日本語のような文法構造が異なる言語間においては，人手評価と一致しない場合がある．原因として，BLEUは部分的な単語列の一致数を調べることにより，スコアを求めていることが挙げられる．そのため，参照文との比較において，同一の単語列を局所的に含む出力文が高いスコアを算出する．したがって，出力文において，文法的な誤りが存在しても高いスコアを算出してしまう．表に具体的な例文を示す．なお，表に対応するBLEUスコアを表に示す．

=5pt

表: 翻訳例
入力文	その機械の構造には欠陥がある。
出力文1	The structure of the machine has a defect .
出力文2	The structure of the is a fault in the machine .
参照文	There is a fault in the machine 's construction .

=30pt

表: 1文におけるBLEUスコア
出力文1	BLEU＝0.000
出力文2	BLEU＝0.367

表より，出力文1と出力文2を比較すると， 1文におけるBLEUスコアは，出力文2が良い評価となる．しかし出力文2は``the is"と出力されているので，文法的な誤りを含んでいる．

次へ: NIST 上へ: 自動評価 戻る: 自動評価目次

平成24年3月13日