next up previous contents
次へ: 翻訳システム 上へ: graduation 戻る: 表一覧   目次


はじめに

機械翻訳システムにおいて,自動評価は効率的な性能評価を行う上で重要である. 近年提案されている自動評価法では,BLEU[1]が主流となっている. しかし,BLEUの自動評価と人手評価には差異がある場合が知られている[2][3]. 越前谷らは,特許文を用いた自動評価法の調査を行い,自動評価と人手評価の相関関数に 大きなばらつきがあることを報告した[4]. しかし,特許文は専門的であり,複雑な文であるので,原因を調査するのは困難である.

そこで本研究では,簡単な日本語の単文[5]を用いて翻訳実験を行う. そして,自動評価と人手評価の相関を考察する. 自動評価として,BLEU[1],NIST[1],METEOR[6],IMPACT[7],RIBES[8],TER[9],WER[9]の7種類の自動評価法を用いる. また人手評価として,対比較評価を行う. なお,翻訳システムには,句に基づく統計翻訳, ハイブリッド翻訳,ルールベース翻訳,階層型統計翻訳の4種類を用いる. さらに新たな評価手法として,日英翻訳と英日翻訳を組み合わせる ``折り返し翻訳を利用した評価方法"を提案し,人手評価との相関を調査する.

結果として自動評価と人手評価の結果には差異が存在した. よって,今回用いた7つの自動評価法には問題があると考えている.

また,折り返し翻訳を利用した評価方法では,英日翻訳にルールベース翻訳を用いた場合に 人手評価と同じ結果が得られた.しかし折り返し翻訳が成功した文数が少ないため信頼性は低く, 改良の余地がある. ここで,本論文の構成を以下に示す. 第[*]章において,翻訳システムの概要について説明を行う. 第[*]章において,自動評価と人手評価についての説明を行う. 第[*]章において,実験環境についての説明を行う. 第[*]章において,自動評価と人手評価の結果を示す. 第[*]章において,本研究の考察を述べる. 第[*]章において, 新たな評価手法として,折り返し翻訳を利用した評価について述べる. 第[*]章において,結論を述べる.



平成24年3月13日