next up previous contents
Next: 謝辞 Up: honron Previous: 固有名詞の問題   目次

おわりに

近年主流となっている統計翻訳において,未知語が出力されることで翻訳精度の低下につながるという問題があった.この未知語を減少させるため,日野らの研究では,新規の対訳句辞書を既存の対訳学習文に追加して未知語処理を行った.そして,未知語数の削減と翻訳精度向上が報告されている.しかし,日野らの手法では新規の学習データが必要になるためコストがかかるという問題が残った.また,藤原らの研究では,Mosesにおいて,フレーズテーブル作成時のヒューリスティックスを併用して未知語処理を行った.そして,未知語数の削減と翻訳精度向上が報告されている.しかし,藤原らの手法は,Moses内で未知語処理を行なっているため,他の統計翻訳器への応用が期待できないという問題が残った.

そこで,本研究では,他の統計翻訳器への応用を考慮した,新規の学習データを必要としない新たな未知語処理手法を提案した.具体的には,GIZA++を用いて自動作成した対訳単語辞書による未知語処理を,一度生成した出力文に対する後処理の形で行った.

実験の結果,PBSMTにおいて1,644文中967文と1,847単語中1,134単語の未知語処理ができた.さらに,人手評価と自動評価の結果より,文全体の翻訳精度が向上し,提案手法の有効性が確認できた.一方で,提案手法の大きな問題として,未知語処理前の文の翻訳精度が低い場合には,未知語が正しく翻訳できたとしても文全体の翻訳精度は向上しないことが分かった.また,未知語の翻訳精度低下につながる原因として,頻度1単語が未知語の多くを占めているという問題と,日本語1単語に対して複数の英単語を必要とするような複合語の未知語を正しく翻訳できないという問題が存在することが分かった.今後は,未知語処理前の文の翻訳精度を向上させる手法を検討したい.



s122019 2018-02-15