次へ: 統計翻訳の手順 上へ: 日英統計翻訳システム 戻る: 日英統計翻訳システム目次

統計翻訳の概要

統計翻訳とは，翻訳する言語と目的言語の対訳文を大量に収集した対訳データを用いて，自動的に翻訳規則を獲得し翻訳を行う，機械翻訳手法の1つである．統計翻訳以前のシステムとしてルールベース翻訳がある．この手法では，日本語と英語のルールを定義する必要がある．例えば，日本語のルール[ $S \rightarrow NP は VP$ ]がある場合には，英語のルール[ $S \rightarrow NP \ VP$ ]といった，ルールの対が大量に必要となる．したがって，翻訳するためのルールを作成するには，文パターン辞書と同様に多言語化が困難であり，開発に時間がかかる．一方，統計翻訳では，統計的モデルを学習するアルゴリズムは言語に依存しない．したがって，大量の対訳データがあれば多言語化が容易であり，開発時間も抑えることが可能である．統計翻訳には，最初に提案された「語に基づく統計翻訳」と近年提案された「句に基づく統計翻訳」があり，現在は「句に基づく統計翻訳」が主流となっている．これは，語順の並び替えや文脈における訳語の選択や翻訳精度において，「句に基づく統計翻訳」の方が「語に基づく統計翻訳」よりも優れているためである．また統計翻訳の特徴として，文法構造が似ている言語間では翻訳精度が高い傾向があり，文法構造の異なる言語間では翻訳精度が低い傾向がある．

平成22年2月11日