次へ: 誤り解析 上へ: 考察 戻る: 評価の問題点目次

関連研究との比較

Brantsらはアラビア語英語間の統計翻訳において，1300万～2兆トークンもの多量のモノリンガルデータを使用し，統計翻訳を行った[16]．4種類のモノリンガルデータ，2つの翻訳手法を用いて，BLEU値が分野に関係なく向上することを報告した．また，Schwenkは仏英翻訳で，3億単語の多量のモノリンガルデータを使用し，統計翻訳を行い，BLEU値が上昇したことを報告している[17]．

本実験でも日英翻訳・英日翻訳でのBLEU値が同分野と別分野で向上している．しかし，他の自動評価の値はばらつきがある．上記の関連研究は，BLEU値が向上したことのみを報告しており，他の自動評価の値は示されない．これは，BLEUの評価の問題点の1つであると考えている．

s102025 平成27年3月9日