そこで,本研究では,他の統計翻訳器への応用を考慮した,新規の学習データを必要としない新たな未知語処理手法を提案した.具体的には,GIZA++を用いて自動作成した対訳単語辞書による未知語処理を,一度生成した出力文に対する後処理の形で行った.
実験の結果,PBSMTにおいて1,644文中967文と1,847単語中1,134単語の未知語処理ができた.さらに,人手評価と自動評価の結果より,文全体の翻訳精度が向上し,提案手法の有効性が確認できた.一方で,提案手法の大きな問題として,未知語処理前の文の翻訳精度が低い場合には,未知語が正しく翻訳できたとしても文全体の翻訳精度は向上しないことが分かった.また,未知語の翻訳精度低下につながる原因として,頻度1単語が未知語の多くを占めているという問題と,日本語1単語に対して複数の英単語を必要とするような複合語の未知語を正しく翻訳できないという問題が存在することが分かった.今後は,未知語処理前の文の翻訳精度を向上させる手法を検討したい.