next up previous contents
Next: 謝辞 Up: honron Previous: 追加手法の実験結果   目次

おわりに

統計翻訳では,対訳学習文から自動的に翻訳規則を獲得し,翻訳を行うため,翻訳精度は対訳学習文の量に大きく依存する.そのため,対訳学習文の量が少ない場合,未知語が出力される.代表的な未知語の対策として,対訳学習文を追加する方法が挙げられる.しかし,対訳学習文を追加するにはコストがかかる. この問題を解決するために,藤原らは,日英翻訳において,対訳学習文を追加せずに,フレーズテーブル作成時のヒューリスティックスを併用することで,未知語の削減と翻訳精度の改善を試みた.その結果,未知語の削減には成功したが,翻訳精度はほとんど向上しなかった.

本研究では,対訳学習文を追加せずに未知語処理を行う新たな手法を提案した.具体的には,出現した未知語を抽出し,文字単位化した後,文字単位化した未知語を入力として再度翻訳を行う.この手法を用いて未知語の削減と翻訳精度の向上を試みた.実験の結果,ベースラインでは未知語を含む文が3,146文出力されていたが,提案手法により236文まで削減することに成功した.更に,翻訳精度の向上も認められた.また,先行手法を併用した結果,未知語を含む文を118文まで削減することに成功した.

今後は,未知語をローマ字に変換する手法と提案手法の比較を行い,評価することを考えている.



s122019 2016-03-03