統計翻訳において,対訳データが多ければ多いほど翻訳精度が向上することがしられている. アラビア語-英語[1]や, 中国語-英語[2]での統計翻訳は盛んであり,対訳データとして,数億文もの多量のデータが提供されている.しかし,日本語-英語で提供されている対訳データの量は少ない.したがって,日英翻訳や英日翻訳において多量の対訳データを用いて翻訳モデルを作成することは困難である.
一方言語モデルでは,多量のモノリンガルデータを学習することにより,単語の遷移確率の精度を向上することができる.これにより,出力言語の単語の並び順を正しくすることができる. 特に日本語-英語間では,日本語の語順が``SOV''であるのに対して,英語の語順は``SVO''であるので,統計翻訳の翻訳精度を向上させるためには,出力言語の語順が重要になる.また,モノリンガルデータは単一言語であるため,データの収集が容易であり,多量のデータを使用することができる.
そこで本研究では,多量のモノリンガルデータを使用して,言語モデルを学習し,日英翻訳と英日翻訳の翻訳精度の向上を目指す.実験では,電子辞書から抜き出した単文[3]と特許翻訳文,Wikipedia文から抜き出した文の3種類の分野のモノリンガルデータを用いる.別々の分野のモノリンガルデータをそれぞれ用いることにより,分野ごとに翻訳結果に与える特性を調べる. その結果,テスト文と同分野の辞書文の翻訳精度は向上したが,テスト文と別分野の特許翻訳文とWikipedia文での向上は見られなかった.
本論文の構成は以下の通りである. まず,2章で統計翻訳システムの概要を示し,各モデルの学習について述べる. 3章では,評価方法について述べる. 4章では,実験に用いるデータやツールといった実験環境について述べる. 5章では,実験の結果を示す.5章では,追加実験について示す. そして,7章で考察を行い, 最後に8章で結論を述べ,まとめる.