next up previous contents
次へ: 統計翻訳の手順 上へ: 日英統計翻訳システム 戻る: 日英統計翻訳システム   目次

統計翻訳の概要

統計翻訳とは,翻訳する言語と目的言語の対訳文を大量に収集した対訳データ を用いて,自動的に翻訳規則を獲得し翻訳を行う,機械翻訳手法の1つである.統 計翻訳以前のシステムとしてルールベース翻訳がある.この手法では,日本語と 英語のルールを定義する必要がある.例えば,日本語のルール[ \(S \rightarrow
NP は VP\)]がある場合には,英語のルール[ \(S \rightarrow NP \ VP\)]といっ た,ルールの対が大量に必要となる.したがって,翻訳するためのルールを作成 するには,文パターン辞書と同様に多言語化が困難であり,開発に時間がかかる. 一方,統計翻訳では,統計的モデルを学習するアルゴリズムは言語に依存しない. したがって,大量の対訳データがあれば多言語化が容易であり,開発時間も抑え ることが可能である.統計翻訳には,最初に提案された「語に基づく統計翻訳」 と近年提案された「句に基づく統計翻訳」があり,現在は「句に基づく統計翻訳」 が主流となっている.これは,語順の並び替えや文脈における訳語の選択や翻訳 精度において,「句に基づく統計翻訳」の方が「語に基づく統計翻訳」よりも優 れているためである.また統計翻訳の特徴として,文法構造が似ている言語間で は翻訳精度が高い傾向があり,文法構造の異なる言語間では翻訳精度が低い傾向 がある.



平成22年2月11日