Next: 日英統計翻訳システム
Up: honron
Previous: 表目次
目次
機械翻訳において,人手で翻訳規則を定義し,翻訳を行うルールベース翻訳が一般的であった.しかし,人手で翻訳規則を定義するには,莫大なコストがかかる.また,言語毎に文法規則が異なるため,多言語への拡張が困難であった.そのため,近年では,統計翻訳が主流となっている.
統計翻訳では,対訳学習文から自動的に翻訳規則を獲得し,翻訳を行うため,翻訳精度は対訳学習文の量に大きく依存する.対訳学習文の量が少ない場合,翻訳されない単語が出力される.本研究では,そのような単語を未知語と定義する.代表的な未知語の対策として,対訳学習文を追加する方法が挙げられる.しかし,対訳学習文を追加するにはコストがかかる.
この問題を解決するために,藤原ら[10]は,日英翻訳において,対訳学習文を追加せずに,フレーズテーブル作成時のヒューリスティックスを併用することで,未知語の削減と翻訳精度の改善を試みた.その結果,未知語の削減には成功したが,翻訳精度はほとんど向上しなかった.
そこで,本研究では,対訳学習文を追加せずに未知語処理を行う新たな手法を提案する.具体的には,出現した未知語を抽出し,文字単位化した後,文字単位化した未知語を入力として再度翻訳を行う.この手法を用いて未知語を削減し,翻訳精度の向上を試みた.この結果,大幅な未知語の削減に成功し,翻訳精度の向上が確認できた.
本論文の構成を以下に示す.第2章で日英統計翻訳システムについて説明する.第3章では類似研究について説明し,第4章で提案手法のシステムについて説明する.そして,第5章では実験環境を,第6章で実験結果を示し,第7章で本研究の考察を述べる.
s122019
2016-03-03