近年では,翻訳システムにおいて,機械によって自動的に評価を行う自動評価が 盛んになっている. 自動評価は,機械的に評価を行うため,開発コストが低いという利点があるという一方で, 日英間における翻訳では,人手評価との間で評価が異なる場合があることが知られている.
そこで本研究では,ハイブリッド翻訳とルールベース翻訳を用いて,自動評価と人手評価の 相関の調査を行った.結果として,ルールベース翻訳とハイブリッド翻訳の比較において, すべての自動評価と人手評価の結果に差異が生じた. 原因としては,ハイブリッド翻訳において,出力文の動詞の誤訳が挙げられる. 動詞の誤訳によって,翻訳品質が下がり,人手評価は大きく低下したと考えられる. しかし,自動評価においては,各単語を一定の割合で評価しているため, 評価は大きく低下しない.よって評価結果に差異が生じたと考えている.
また,ルールベース翻訳と句に基づく統計翻訳,ルールベース翻訳と階層型統計翻訳の 比較においては,自動評価のMETEOR,IMPACT,RIBESが人手評価と同じ結果であった. よって,METEOR,IMPACT,RIBESにおいては他の自動評価法より信頼性があると考えている.
さらに,本研究では新たな評価法として,折り返し翻訳を利用した評価法を提案した. 結果として,折り返し翻訳を利用した評価では,英日翻訳にルールベース翻訳を用いた場合に 人手評価と同じ結果が得られた.しかし折り返し翻訳が成功した文数が少ないため信頼性は低く, 改良の余地がある.
今後は,本実験で用いた7つの自動評価法以外においても, 人手評価との相関を調査することを考えている.