翻訳システムの一手法として“パターン翻訳" がある.パターン翻訳は大量の対訳文パターンと単語辞書を用いて,翻訳文を出力する手法である.パターン翻訳は,入力文が適切な対訳文パターンに適合した場合に,翻訳精度の高い翻訳文が得られやすいという特徴がある.しかし,パターン翻訳に用いる単語辞書と対訳文パターンは人手で作成するため,開発コストが高くなる.
一方,翻訳システムとして“単語に基づく統計翻訳" がある.単語に基づく統計翻訳は,学習データとして対訳文を与えるだけで翻訳ができる.このため,翻訳にかかるコストが低い.さらに,対訳文から単語辞書と単語翻訳確率を自動的に得ることが可能である.
江木らは,単語辞書と対訳文パターンを統計的手法で自動的に作成し翻訳するパターンに基づく統計翻訳を提案した.パターンに基づく統計翻訳は,句に基づく統計翻訳の特徴である対訳文から単語辞書と単語翻訳確率を自動的に取得できる点に着目し,翻訳に用いる単語辞書と対訳文パターンを統計的手法を用いて自動的に作成する.