次へ: 統計翻訳の手順
上へ: 日英統計翻訳システム
戻る: 日英統計翻訳システム
目次
統計翻訳とは,翻訳する言語と目的言語の対訳文を大量に収集した対訳データ
を用いて,自動的に翻訳規則を獲得し翻訳を行う,機械翻訳手法の1つである.統
計翻訳以前のシステムとしてルールベース翻訳がある.この手法では,日本語と
英語のルールを定義する必要がある.例えば,日本語のルール[
]がある場合には,英語のルール[
]といっ
た,ルールの対が大量に必要となる.したがって,翻訳するためのルールを作成
するには,文パターン辞書と同様に多言語化が困難であり,開発に時間がかかる.
一方,統計翻訳では,統計的モデルを学習するアルゴリズムは言語に依存しない.
したがって,大量の対訳データがあれば多言語化が容易であり,開発時間も抑え
ることが可能である.統計翻訳には,最初に提案された「語に基づく統計翻訳」
と近年提案された「句に基づく統計翻訳」があり,現在は「句に基づく統計翻訳」
が主流となっている.これは,語順の並び替えや文脈における訳語の選択や翻訳
精度において,「句に基づく統計翻訳」の方が「語に基づく統計翻訳」よりも優
れているためである.また統計翻訳の特徴として,文法構造が似ている言語間で
は翻訳精度が高い傾向があり,文法構造の異なる言語間では翻訳精度が低い傾向
がある.
平成22年2月11日