次へ: 日英統計翻訳における基本モデル 上へ: 日英統計翻訳システム 戻る: 日英統計翻訳システム目次

統計翻訳とは

統計翻訳とは，翻訳する言語の文とその対訳文を大量に収集した対訳データを用いて統計的モデルを学習し，自動的に翻訳システムを構築する機械翻訳の一つである．統計翻訳が提案される前の機械翻訳には，ルールベース翻訳がある．これは，例えば，「S → NP VP」という英語のルールがあれば，「S → NP は VP」という日本語のルールに翻訳するように，翻訳のルールを定義する必要がある．このため，多言語化が困難であり，開発コストが高いという問題がある．しかし，統計翻訳において，統計的モデルを学習するアルゴリズムは，言語に依存しないため，大量の対訳データがあれば，多言語化が容易であり，開発コストを抑えることが可能である．

統計翻訳は，現在は句に基づく統計翻訳(Phrase-based Stastical Machine Translation, PSMT)[4]が一般的である．句に基づく統計翻訳は，文脈に基づく訳語の選択や局所的な語順の並び替えが，語に基づく統計翻訳(Word-based Stastical Machine Translation, WSMT)より優れているためである．しかし，句に基づく統計翻訳は，局所的な句の相対位置に依存しているため，大局的な語順の並び替えは困難であり，日英統計翻訳をはじめとした異なる文法構造間の翻訳精度は低い傾向がある．

平成26年3月29日