次へ: 目次 上へ: ron 戻る: ron 目次

概要

統計翻訳は，対訳データから学習する翻訳モデルと，モノリンガルデータから学習する言語モデルを用いて，確率的に翻訳をする．

アラビア語-英語[1]や, 中国語-英語[2]では数億文もの多量の対訳データが提供されている．一方,日本語-英語で提供されている対訳データの量は少ない．したがって，日英翻訳や英日翻訳において多量の対訳データを用いて翻訳モデルを作成することは困難である．翻訳モデルは対訳データを取得する必要があるため, モデルを学習するためにコストが掛かるが, 言語モデルは単一言語だけなので, モデルを学習するコストが低い.

そこで本研究では，データを収集することが容易な，モノリンガルデータを大量に使用して，言語モデルを学習し，翻訳精度の変化を調べた．モノリンガルデータには，電子辞書から抜き出した文 (辞書文) [3]，特許翻訳文，Wikipediaから抜き出した文 (Wikipedia文) をそれぞれ使用し，テスト文には辞書文を用いた．

その結果，自動評価と人手評価の日英翻訳と英日翻訳の結果で，テスト文と同分野の辞書文の翻訳精度は向上したが，テスト文と別分野の特許翻訳文とWikipedia文での向上は見られなかった．よって，テスト文と同分野のモノリンガルデータを増やす手法は有効であることが確認できた．また，追加実験として追加するモノリンガルデータの量を変化させた実験を行い，テスト文と同分野の辞書文では，データの増加量と比例して翻訳精度が向上していることがわかった．

s102025 平成27年3月9日