現在,機械翻訳の翻訳品質の評価において,数多くの自動評価方法が提案されている. 多くの評価方法は,翻訳された最尤の出力文と参照文から単語の順列や出現頻度を見て評価を行う. つまり,最尤の出力文1文に対して評価を行っている. しかし,実際に翻訳を行う際には,複数の出力文の中から最適な文を選び,翻訳を行うことがある. 一方,情報検索においては最尤の文だけでなく,複数の文を使用し検索精度を評価する. 評価指標の一つとしてMRRがある. そこで,本研究では,機械翻訳において,MRRを参考にして,複数の出力文を使用する自動評価方法を提案した.
そして,日英翻訳と英日翻訳の2種類,単文と重文複文の2種類,評価方法2種類,翻訳システム7種類の合計56種類の実験を行った. 人手評価に対する自動評価の相関係数を調査した結果, 提案手法の結果と1文出力の結果を比較しても, 人手評価に対する自動評価の相関係数に差はあまり見られなかった. しかし,単文の英日翻訳において, 提案手法の結果は1文出力の結果と比較すると, 人手評価に対する自動評価の相関係数が向上した.