差異が存在した原因として,単語の重要度の違いが挙げられる.
自動評価は,各単語を同じ割合で評価している.
しかし人手評価は,各単語を同じ割合で評価していない.
例えば,動詞は文全体の意味に与える影響は大きい.しかし助詞は文全体の意味に与える影響は小さい.
よって翻訳文に動詞の誤訳が含まれると文質は低下し,人手評価において,評価も低下する.
したがって,自動評価と人手評価では,各単語の重要度が異なっているので,
評価結果に差異が存在したと考えている.
動詞の誤訳の例として,動詞の欠落の例を表,表に示す.
入力文 | 話題が転じて教育問題の話になった。 |
ルールベース翻訳 | Subject changed and |
it became a talk of the educational problem . | |
ハイブリッド翻訳 | Subject changed and |
the story of educational problems . |
BLEU | NIST | METEOR | IMPACT | RIBES | TER | WER | ||
ルールベース翻訳 | 0.000 | 0.702 | 0.404 | 0.280 | 0.639 | 1.429 | 1.429 | |
ハイブリッド翻訳 | 0.000 | 1.248 | 0.600 | 0.485 | 0.760 | 0.857 | 0.857 |
表では,人手評価において,ルールベース翻訳が良いと判断できる. しかし表では,自動評価において,ハイブリッド翻訳の方が良い.
入力文 | 父は犬小屋を大きく作り替えた。 |
ルールベース翻訳 | The father remade the doghouse greatly . |
ハイブリッド翻訳 | My father made the doghouse . |
BLEU | NIST | METEOR | IMPACT | RIBES | TER | WER | ||
ルールベース翻訳 | 0.0000 | 1.3879 | 0.3745 | 0.4416 | 0.7863 | 0.6667 | 0.6667 | |
ハイブリッド翻訳 | 0.000 | 1.0566 | 0.4589 | 0.4508 | 0.7999 | 0.6667 | 0.6667 |
表では,人手評価において,ルールベース翻訳が良いと判断できる. しかし表では,自動評価において,ハイブリッド翻訳の方が良いと示している評価法が多い.