次へ: 誤り解析
上へ: 考察
戻る: 評価の問題点
目次
Brantsらはアラビア語英語間の統計翻訳において,1300万〜2兆トークンもの多量のモノリンガルデータを使用し,統計翻訳を行った[16].4種類のモノリンガルデータ,2つの翻訳手法を用いて,BLEU値が分野に関係なく向上することを報告した.また,Schwenkは仏英翻訳で,3億単語の多量のモノリンガルデータを使用し,統計翻訳を行い,BLEU値が上昇したことを報告している[17].
本実験でも日英翻訳・英日翻訳でのBLEU値が同分野と別分野で向上している.しかし,他の自動評価の値はばらつきがある.上記の関連研究は,BLEU値が向上したことのみを報告しており,他の自動評価の値は示されない.
これは,BLEUの評価の問題点の1つであると考えている.
s102025
平成27年3月9日