本実験では,日英翻訳と英日翻訳,単文データと重文複文データ,全8種類の翻訳システム, 合計32種類の実験を行った.実験結果を表7にまとめる. また,人手評価との相関係数と,提案手法との相関係数も同時に示す. この表から読み取れることを以下に示す.
提案手法を含めた5種類の自動評価と,人手評価との相関を見ると,日英翻訳 の単文の実験において,METEORとRIBESは提案手法より高い.しかし,他の全て の実験において,提案手法が最も優れている.したがって,提案手法の有効性 が示された.また,日英翻訳と英日翻訳を比較すると,英日翻訳において有効 性が高い.
提案手法と他の自動評価方法との相関をみると,BLUEとの相関が 比較的高い.
日英翻訳と英日翻訳,単文データと重文複文データの4種類の表から 人手評価において以下の傾向がある.
日英翻訳の重文複文の実験において,全ての自動評価方法において 人手評価との相関が負になった.ただし,提案手法は-0.04と 他の自動評価方法と比較して最も低い値になった.