Next: 目次 Up: honron Previous: honron 目次

概要

近年，機械翻訳において，統計翻訳が注目されている．統計翻訳では，対訳学習文から自動的に翻訳規則を獲得し，翻訳を行うため，翻訳精度は対訳学習文の量に大きく依存する．対訳学習文の量が少ない場合，翻訳されない単語が出力される．本研究では，そのような単語を未知語と定義する．代表的な未知語の対策として，対訳学習文を追加する方法が挙げられる．しかし，対訳学習文を追加するにはコストがかかる．

そこで，本研究では，対訳学習文を追加せずに未知語処理を行う新たな手法を提案する．具体的には，出現した未知語を抽出し，文字単位化した後，文字単位化した未知語を入力として再度翻訳を行う．この手法を用いて未知語の削減と翻訳精度の向上を試みた．実験の結果，ベースラインでは未知語を含む文が3,146文出力されていたが，提案手法により236文まで削減することに成功した．更に，人手による対比較評価を行ったところ，翻訳精度の向上も認められた．

s122019 2016-03-03