Next: 目次
Up: honron
Previous: honron
目次
近年,機械翻訳において,統計翻訳が注目されている.統計翻訳では,対訳学習文から自動的に翻訳規則を獲得し,翻訳を行うため,翻訳精度は対訳学習文の量に大きく依存する.対訳学習文の量が少ない場合,翻訳されない単語が出力される.本研究では,そのような単語を未知語と定義する.代表的な未知語の対策として,対訳学習文を追加する方法が挙げられる.しかし,対訳学習文を追加するにはコストがかかる.
そこで,本研究では,対訳学習文を追加せずに未知語処理を行う新たな手法を提案する.具体的には,出現した未知語を抽出し,文字単位化した後,文字単位化した未知語を入力として再度翻訳を行う.この手法を用いて未知語の削減と翻訳精度の向上を試みた.実験の結果,ベースラインでは未知語を含む文が3,146文出力されていたが,提案手法により236文まで削減することに成功した.更に,人手による対比較評価を行ったところ,翻訳精度の向上も認められた.
s122019
2016-03-03