評価は,コンピュータによる自動評価と人間による評価の,2種類で行う.
機械翻訳システムの翻訳精度を自動評価する手法として,あらかじめ実験者が 用意した正解文と,翻訳システムが出力した文とを比較する手法が利用されて いる.この自動評価法には多くの方法が提案されている.本研究では, -gramを用いたBLEU[15]と類似単語辞書を用いた METEOR[16]を用いる.
人間による評価として,対比較実験をおこなう.得られた英文から100文をラン ダムに抽出し,ベースラインの翻訳結果と提案手法の翻訳結果のどちらの翻訳 結果が優れているかを人間で判断する.その際,本研究において固有名詞の未知 語はローマ字変換して評価し,それ以外の未知語は存在しないとして評価 を行う.