next up previous contents
次へ: 語順変更の有効性 上へ: 自動評価と人手評価 戻る: 実験内容   目次

実験のまとめ

自動評価と人手評価で結果が異なる原因として,自動評価のスコアの計算方法に問題があると考える.自動評価のスコアの計算方法は,翻訳文と参照文を比較してスコアを計算している.そのため,翻訳文が正しい場合であっても,違う文法で書かれた文,参照文が間違っている文や意訳されている文では,スコアが低くなることがある.また,自動評価のスコアは翻訳文を局所的に見て,スコアを計算している.語順変更により,英語の語順に並び替えてから,翻訳を行うことで,局所的には正しく翻訳されている.しかし,大局的に見れば,構文的に不自然な文が多く存在するため,人手評価では差がなかったと考える.また,表6.1の例3ではMETEORは高いスコアを出しているが,TERは低いスコアを出している.このような文はよく見られる.これは表6.2の例3でも同じことが言え,自動評価の曖昧性が明らかである.



平成28年3月16日