next up previous
次へ: 考察 上へ: 実験結果 戻る: 出力例

人手評価との比較および他の自動評価との比較

本実験では,日英翻訳と英日翻訳,単文データと重文複文データ,全8種類の翻訳システム, 合計32種類の実験を行った.実験結果を表7にまとめる. また,人手評価との相関係数と,提案手法との相関係数も同時に示す. この表から読み取れることを以下に示す.

  1. 提案手法の有効性

    提案手法を含めた5種類の自動評価と,人手評価との相関を見ると,日英翻訳 の単文の実験において,METEORとRIBESは提案手法より高い.しかし,他の全て の実験において,提案手法が最も優れている.したがって,提案手法の有効性 が示された.また,日英翻訳と英日翻訳を比較すると,英日翻訳において有効 性が高い.

  2. 提案手法と他の自動評価方法との相関

    提案手法と他の自動評価方法との相関をみると,BLUEとの相関が 比較的高い.

  3. 人手評価の傾向

    日英翻訳と英日翻訳,単文データと重文複文データの4種類の表から 人手評価において以下の傾向がある.

  4. 英日翻訳の単文の自動評価方法の問題

    日英翻訳の重文複文の実験において,全ての自動評価方法において 人手評価との相関が負になった.ただし,提案手法は-0.04と 他の自動評価方法と比較して最も低い値になった.



Jin'ichi Murakami 平成25年6月26日