そこで本研究では,簡単な日本語の単文[5]を用いて翻訳実験を行う. そして,自動評価と人手評価の相関を考察する. 自動評価として,BLEU[1],NIST[1],METEOR[6],IMPACT[7],RIBES[8],TER[9],WER[9]の7種類の自動評価法を用いる. また人手評価として,対比較評価を行う. なお,翻訳システムには,句に基づく統計翻訳, ハイブリッド翻訳,ルールベース翻訳,階層型統計翻訳の4種類を用いる. さらに新たな評価手法として,日英翻訳と英日翻訳を組み合わせる ``折り返し翻訳を利用した評価方法"を提案し,人手評価との相関を調査する.
結果として自動評価と人手評価の結果には差異が存在した. よって,今回用いた7つの自動評価法には問題があると考えている.
また,折り返し翻訳を利用した評価方法では,英日翻訳にルールベース翻訳を用いた場合に 人手評価と同じ結果が得られた.しかし折り返し翻訳が成功した文数が少ないため信頼性は低く, 改良の余地がある. ここで,本論文の構成を以下に示す. 第章において,翻訳システムの概要について説明を行う. 第章において,自動評価と人手評価についての説明を行う. 第章において,実験環境についての説明を行う. 第章において,自動評価と人手評価の結果を示す. 第章において,本研究の考察を述べる. 第章において, 新たな評価手法として,折り返し翻訳を利用した評価について述べる. 第章において,結論を述べる.