次へ: 翻訳システム 上へ: graduation 戻る: 表一覧目次

はじめに

機械翻訳システムにおいて，自動評価は効率的な性能評価を行う上で重要である．近年提案されている自動評価法では，BLEU[1]が主流となっている．しかし，BLEUの自動評価と人手評価には差異がある場合が知られている[2][3]．越前谷らは，特許文を用いた自動評価法の調査を行い，自動評価と人手評価の相関関数に大きなばらつきがあることを報告した[4]．しかし，特許文は専門的であり，複雑な文であるので，原因を調査するのは困難である．

そこで本研究では，簡単な日本語の単文[5]を用いて翻訳実験を行う．そして，自動評価と人手評価の相関を考察する．自動評価として，BLEU[1]，NIST[1]，METEOR[6]，IMPACT[7]，RIBES[8]，TER[9]，WER[9]の7種類の自動評価法を用いる．また人手評価として，対比較評価を行う．なお，翻訳システムには，句に基づく統計翻訳，ハイブリッド翻訳，ルールベース翻訳，階層型統計翻訳の4種類を用いる．さらに新たな評価手法として，日英翻訳と英日翻訳を組み合わせる ``折り返し翻訳を利用した評価方法"を提案し，人手評価との相関を調査する．

結果として自動評価と人手評価の結果には差異が存在した．よって，今回用いた7つの自動評価法には問題があると考えている．

また，折り返し翻訳を利用した評価方法では，英日翻訳にルールベース翻訳を用いた場合に人手評価と同じ結果が得られた．しかし折り返し翻訳が成功した文数が少ないため信頼性は低く，改良の余地がある．ここで，本論文の構成を以下に示す．第章において，翻訳システムの概要について説明を行う．第章において，自動評価と人手評価についての説明を行う．第章において，実験環境についての説明を行う．第章において，自動評価と人手評価の結果を示す．第章において，本研究の考察を述べる．第章において，新たな評価手法として，折り返し翻訳を利用した評価について述べる．第章において，結論を述べる．

平成24年3月13日