「単語に基づく統計翻訳」は対応する``は''や``に''のような単語が存在しない場合,何も無い状態から単語の発生確率を計算する. このため単語の確率における信頼性が問題となっている. よって現在は句単位の対応を用いた「句に基づく統計翻訳」が一般的に使用されている. そのため本研究では「単語に基づく統計翻訳」を使用しない.
図2.1に日英統計翻訳システムの枠組を示す.
日英統計翻訳は, まず日英対訳コーパスの学習によって, 翻訳モデルと言語モデルを作成する.
そして, 入力文として日本語文が与えられたとき, との組み合わせから, 確率が最大となる英語文を探索し翻訳を行う. 統計翻訳の基本式を以下に示す.
(2.1) | |||
(2.2) |