従来のルールベース法を用いた翻訳方式では,1つの言語間の翻訳システムを作 るために,言語のエキスパートが何年もの時間をかけて翻訳知識を構築する必要 があった.また,言語によって,文法規則が異なるため,多言語への拡張が困難 であった.
そこで,統計的手法により翻訳知識を自動的に生成することができる統計翻訳が 注目されている.統計翻訳はBrownらによって提案された手法である.この手法 は,互いの翻訳になっている文の対の集合(対訳コーパス)から,翻訳知識を表す モデルを自動生成する.この自動生成は対訳コーパスがあれば行なうことが出来 るため,多言語への拡張が容易である.
日英統計翻訳では,旅行会話タスクと特許翻訳タスクのようにドメインの違いに よる翻訳精度の報告がされている.特に旅行会話タスクでは,高い精度が得られ ている.しかし,文の構造の違いによる翻訳精度の報告は行なわれてこなかった. 本研究では,辞書の例文をドメインとして,単文コーパスと重文複文コーパスに 分類し,それぞれの翻訳精度の評価を行なう.また,言語モデルや翻訳モデルに 関する基本的な評価も行なう.
2章で日英統計翻訳についての概要を示し,各部分の説明を行なう.3章で,実験 環境の説明を行なう.4章で,統計翻訳の基本的な評価として, max-phrase-length,N-gram,言語モデル,翻訳モデルと翻訳精度の関係 を示す.5章で,学習データとしての単文・重文複文の効果を示す.最後に,6章 で結論を述べ,まとめる.