統計翻訳は,対訳データから学習する翻訳モデルと,モノリンガルデータから学習する言語モデルを用いて,確率的に翻訳をする.
アラビア語-英語[1]や, 中国語-英語[2]では数億文もの多量の対訳データが提供されている.一方,日本語-英語で提供されている対訳データの量は少ない.したがって,日英翻訳や英日翻訳において多量の対訳データを用いて翻訳モデルを作成することは困難である.翻訳モデルは対訳データを取得する必要があるため, モデルを学習するためにコストが掛かるが, 言語モデルは単一言語だけなので, モデルを学習するコストが低い.
そこで本研究では,データを収集することが容易な,モノリンガルデータを大量に使用して,言語モデルを学習し,翻訳精度の変化を調べた. モノリンガルデータには,電子辞書から抜き出した文 (辞書文) [3],特許翻訳文,Wikipediaから抜き出した文 (Wikipedia文) をそれぞれ使用し,テスト文には辞書文を用いた.
その結果,自動評価と人手評価の日英翻訳と英日翻訳の結果で,テスト文と同分野の辞書文の翻訳精度は向上したが,テスト文と別分野の特許翻訳文とWikipedia文での向上は見られなかった. よって,テスト文と同分野のモノリンガルデータを増やす手法は有効であることが確認できた.また,追加実験として追加するモノリンガルデータの量を変化させた実験を行い,テスト文と同分野の辞書文では,データの増加量と比例して翻訳精度が向上していることがわかった.