next up previous
次へ: 自動評価と人手評価が大きく異なる例 上へ: 機械翻訳における文一致率による評価 A New Evaluation 戻る: 機械翻訳における文一致率による評価 A New Evaluation

はじめに

現在,機械翻訳システムの性能評価において,複数の評価手法が提案されてい る.これらの翻訳結果の評価手法は,大きくわけて人手評価と自動評価がある.

人手評価は,一般的には翻訳された出力文を,文全体の意味や文法の正しさを 考慮して人間が評価する.したがって信頼度は比較的高い.しかし,人が判断 するため高コストである.また評価者によって着目点が異なるため,評価が同 一にならないことが多い.一方自動評価にも多くの種類が提案されている.多 くの評価方法は,人手で作成した入力文の正解文を必要とし,翻訳された出力 文と正解文の単語の順序や出現頻度から評価する.自動評価は,人手で作成し た入力文の正解文が必要だが,人手評価と比較するとコストは低い.しかし, 人手評価と自動評価には大きな差が生じることが報告されている [1].

松本ら[1]は,人手評価と自動評価に差がある原因として,以下 の原因を報告をしている.人手評価は,人間が文全体を着目して評価する.し たがって,単語単位では均一に評価しない.一方,自動評価は,出力文と正解 文の単語の語順や出現頻度を比較する.そのため,単語単位では均一に評価す る.ところで,動詞は文を構成する重要な要素である.そのため,動詞が抜け 落ちてると,意味不明な文章になる.しかし,自動評価において,動詞以外の 大部分の単語が一致する場合,高い評価をする.よって人手評価と自動評価に 大きな差が生じる.

そこで本研究では,単語ではなく文全体を評価する新たな自動評価法を提案する.具体的には出 力文と正解文において,文を構成する単語が完全に一致した文数で評価を行う. 単語が完全に一致した文を数えることで,文全体を考慮した評価が可能である と仮定する.最後に,提案手法と人手評価の相関を調査する.



Jin'ichi Murakami 平成25年6月26日