次へ: 統計翻訳システム 上へ: ron 戻る: 表一覧目次

はじめに

統計的機械翻訳 (統計翻訳) では，対訳データから学習する翻訳モデルと，モノリンガルデータから学習する言語モデルを用いて，確率的に翻訳をする．

統計翻訳において，対訳データが多ければ多いほど翻訳精度が向上することがしられている．アラビア語-英語[1]や, 中国語-英語[2]での統計翻訳は盛んであり，対訳データとして，数億文もの多量のデータが提供されている．しかし，日本語-英語で提供されている対訳データの量は少ない．したがって，日英翻訳や英日翻訳において多量の対訳データを用いて翻訳モデルを作成することは困難である．

一方言語モデルでは，多量のモノリンガルデータを学習することにより，単語の遷移確率の精度を向上することができる．これにより，出力言語の単語の並び順を正しくすることができる．特に日本語-英語間では，日本語の語順が``SOV''であるのに対して，英語の語順は``SVO''であるので，統計翻訳の翻訳精度を向上させるためには，出力言語の語順が重要になる．また，モノリンガルデータは単一言語であるため，データの収集が容易であり，多量のデータを使用することができる．

そこで本研究では，多量のモノリンガルデータを使用して，言語モデルを学習し，日英翻訳と英日翻訳の翻訳精度の向上を目指す．実験では，電子辞書から抜き出した単文[3]と特許翻訳文，Wikipedia文から抜き出した文の3種類の分野のモノリンガルデータを用いる．別々の分野のモノリンガルデータをそれぞれ用いることにより，分野ごとに翻訳結果に与える特性を調べる．その結果，テスト文と同分野の辞書文の翻訳精度は向上したが，テスト文と別分野の特許翻訳文とWikipedia文での向上は見られなかった．

本論文の構成は以下の通りである．まず，2章で統計翻訳システムの概要を示し，各モデルの学習について述べる． 3章では，評価方法について述べる． 4章では，実験に用いるデータやツールといった実験環境について述べる． 5章では，実験の結果を示す．5章では，追加実験について示す．そして，7章で考察を行い，最後に8章で結論を述べ，まとめる．

s102025 平成27年3月9日