next up previous contents
次へ: 関連研究との比較 上へ: 考察 戻る: データ量と翻訳精度の関係   目次

評価の問題点

今回の実験での人手評価は,出力文100文に対して対比較を行ったが,翻訳品質に差のある文は20文ほどしかなかった.20文で翻訳精度の差を評価するには信頼性が低い.よって評価する文数を増やす必要がある.具体的には差のある文章が100文程度必要なので,人手評価に用いるデータ量は500文が望ましい.

統計翻訳における自動評価では,様々な問題が報告されている.松本は,単文を用いて自動評価と人手評価を行い,評価結果に差異が生じたことを報告している[15].本実験でも自動評価の結果と人手評価の結果に差があった.今後,自動評価に対する方法を調べる必要がある.



s102025 平成27年3月9日