Next: 日英統計翻訳システム Up: honron Previous: 表目次目次

はじめに

機械翻訳において，人手で翻訳規則を定義し，翻訳を行うルールベース翻訳が一般的であった．しかし，人手で翻訳規則を定義するには，莫大なコストがかかる．また，言語毎に文法規則が異なるため，多言語への拡張が困難であった．そのため，近年では，統計翻訳が主流となっている．統計翻訳では，対訳学習文から自動的に翻訳規則を獲得し，翻訳を行うため，翻訳精度は対訳学習文の量に大きく依存する．対訳学習文の量が少ない場合，翻訳されない単語が出力される．本研究では，そのような単語を未知語と定義する．代表的な未知語の対策として，対訳学習文を追加する方法が挙げられる．しかし，対訳学習文を追加するにはコストがかかる．この問題を解決するために，藤原ら[10]は，日英翻訳において，対訳学習文を追加せずに，フレーズテーブル作成時のヒューリスティックスを併用することで，未知語の削減と翻訳精度の改善を試みた．その結果，未知語の削減には成功したが，翻訳精度はほとんど向上しなかった．

そこで，本研究では，対訳学習文を追加せずに未知語処理を行う新たな手法を提案する．具体的には，出現した未知語を抽出し，文字単位化した後，文字単位化した未知語を入力として再度翻訳を行う．この手法を用いて未知語を削減し，翻訳精度の向上を試みた．この結果，大幅な未知語の削減に成功し，翻訳精度の向上が確認できた．

本論文の構成を以下に示す．第2章で日英統計翻訳システムについて説明する．第3章では類似研究について説明し，第4章で提案手法のシステムについて説明する．そして，第5章では実験環境を，第6章で実験結果を示し，第7章で本研究の考察を述べる．

s122019 2016-03-03