次へ: 日英統計翻訳システム 上へ: soturon 戻る: 表一覧目次

はじめに

従来のルールベース法を用いた翻訳方式では，1つの言語間の翻訳システムを作るために，言語のエキスパートが何年もの時間をかけて翻訳知識を構築する必要があった．また，言語によって，文法規則が異なるため，多言語への拡張が困難であった．

そこで，統計的手法により翻訳知識を自動的に生成することができる統計翻訳が注目されている．統計翻訳はBrownらによって提案された手法である．この手法は，互いの翻訳になっている文の対の集合(対訳コーパス)から，翻訳知識を表すモデルを自動生成する．この自動生成は対訳コーパスがあれば行なうことが出来るため，多言語への拡張が容易である．

日英統計翻訳では，旅行会話タスクと特許翻訳タスクのようにドメインの違いによる翻訳精度の報告がされている．特に旅行会話タスクでは，高い精度が得られている．しかし，文の構造の違いによる翻訳精度の報告は行なわれてこなかった．本研究では，辞書の例文をドメインとして，単文コーパスと重文複文コーパスに分類し，それぞれの翻訳精度の評価を行なう．また，言語モデルや翻訳モデルに関する基本的な評価も行なう．

2章で日英統計翻訳についての概要を示し，各部分の説明を行なう．3章で，実験環境の説明を行なう．4章で，統計翻訳の基本的な評価として， max-phrase-length，N-gram，言語モデル，翻訳モデルと翻訳精度の関係を示す．5章で，学習データとしての単文・重文複文の効果を示す．最後に，6章で結論を述べ，まとめる．

平成20年3月25日