29#29 | 9#9 | 30#30 | (3.1) |
31#31 | 9#9 | 32#32 | (3.2) |
33#33 | 9#9 | 34#34 | (3.3) |
ここで,BPは短い翻訳文が高い評価にならないように補正を行うパラメータである. また35#35は16#16-gramの重みである. 具体的な計算例を以下に示す.
[ |
c]例
日本語文:お先 に 失礼 し ます 。
参照文:Excuse me , I must be going now . 出力文:Excuse me , but I mest be going now . |
計算方法
参照文と出力文の16#16-gramより計算を行うと
36#36 | (3.4) |
これらのスコアを計算式に代入すると
またBLEUは,英語とフランス語などの文法構造が近い言語間において,人手評価と評価が一致する場合が多い. しかし,英語と日本語などの文法構造が異なる言語間において,人手評価と評価が一致しない場合がある. 原因として,BLEUは部分的な単語列の一致数を調べ,スコアを求めていることが挙げられる. そのため,参照文との比較において,同一の単語列を局所的に含む出力文が高いスコアを算出する. したがって,出力文において,文法的な誤りが存在しても高いスコアを算出してしまう. 表に具体的な例文を示す.なお,表に対応するBLEUスコアを表に示す.
入力文 | その 機械 の 構造 に は 欠陥 が ある 。 |
出力文1 | The structure of the machine has a defect . |
出力文2 | The structure of the is a fault in the machine . |
参照文 | There is a fault in the machine 's construction . |
表より,出力文1と出力文2を比較すると, 1文におけるBLEUスコアは,出力文2が 良い評価となる. しかし出力文2は``the is"と出力されているので,文法的に誤っている.