(3.1) | |||
(3.2) | |||
(3.3) |
ここで,BPは短い翻訳文が高い評価にならないように補正を行うパラメータである. または-gramの重みである. 具体的な計算例を以下に示す.
[ |
c]例
日本語文:お先 に 失礼 し ます 。
参照文:Excuse me , I must be going now . 出力文:Excuse me , but I mest be going now . |
計算方法
参照文と出力文の-gramより計算を行うと
(3.4) |
これらのスコアを計算式に代入すると
またBLEUは,英語とフランス語などの文法構造が近い言語間において,人手評価と評価が一致する場合が多い. しかし,英語と日本語などの文法構造が異なる言語間において,人手評価と評価が一致しない場合がある. 原因として,BLEUは部分的な単語列の一致数を調べ,スコアを求めていることが挙げられる. そのため,参照文との比較において,同一の単語列を局所的に含む出力文が高いスコアを算出する. したがって,出力文において,文法的な誤りが存在しても高いスコアを算出してしまう. 表3.2に具体的な例文を示す.なお,表3.2に対応するBLEUスコアを表3.3に示す.
入力文 | その 機械 の 構造 に は 欠陥 が ある 。 |
出力文1 | The structure of the machine has a defect . |
出力文2 | The structure of the is a fault in the machine . |
参照文 | There is a fault in the machine 's construction . |
表3.3より,出力文1と出力文2を比較すると, 1文におけるBLEUスコアは,出力文2が 良い評価となる. しかし出力文2は``the is"と出力されているので,文法的に誤っている.