人手評価との比較および他の自動評価との比較

次へ: 考察 上へ: 実験結果 戻る: 出力例

本実験では，日英翻訳と英日翻訳，単文データと重文複文データ，全8種類の翻訳システム，合計32種類の実験を行った．実験結果を表7にまとめる．また，人手評価との相関係数と，提案手法との相関係数も同時に示す．この表から読み取れることを以下に示す．

提案手法の有効性
提案手法を含めた５種類の自動評価と，人手評価との相関を見ると，日英翻訳の単文の実験において，METEORとRIBESは提案手法より高い．しかし，他の全ての実験において，提案手法が最も優れている．したがって，提案手法の有効性が示された．また，日英翻訳と英日翻訳を比較すると，英日翻訳において有効性が高い．
提案手法と他の自動評価方法との相関
提案手法と他の自動評価方法との相関をみると，BLUEとの相関が比較的高い．
人手評価の傾向
日英翻訳と英日翻訳，単文データと重文複文データの４種類の表から人手評価において以下の傾向がある．
- RBMTは最も高い．
- PSMTが最も低い．
- 自動評価方法の精度は，以下の順番になる．
英日翻訳の単文の自動評価方法の問題
日英翻訳の重文複文の実験において，全ての自動評価方法において人手評価との相関が負になった．ただし，提案手法は-0.04と他の自動評価方法と比較して最も低い値になった．

Jin'ichi Murakami 平成25年6月26日