next up previous contents
次へ: 誤り解析 上へ: 考察 戻る: 評価の問題点   目次

関連研究との比較

Brantsらはアラビア語英語間の統計翻訳において,1300万〜2兆トークンもの多量のモノリンガルデータを使用し,統計翻訳を行った[16].4種類のモノリンガルデータ,2つの翻訳手法を用いて,BLEU値が分野に関係なく向上することを報告した.また,Schwenkは仏英翻訳で,3億単語の多量のモノリンガルデータを使用し,統計翻訳を行い,BLEU値が上昇したことを報告している[17].

本実験でも日英翻訳・英日翻訳でのBLEU値が同分野と別分野で向上している.しかし,他の自動評価の値はばらつきがある.上記の関連研究は,BLEU値が向上したことのみを報告しており,他の自動評価の値は示されない. これは,BLEUの評価の問題点の1つであると考えている.


s102025 平成27年3月9日