next up previous contents
次へ: 単語に基づく統計翻訳 上へ: 概要 戻る: 概要   目次

英日統計翻訳の枠組み

英日統計翻訳システムの枠組みを図3.1に示す.

図: 英日統計翻訳の枠組み
\includegraphics[width=13cm]{zu5.eps}

英日統計翻訳は,入力文として英語文$E$が与えられた場合に,翻訳モデルと言語モデルの組み合わせの中から確率が最大となる日本語文$J$を探索することで翻訳を行う.以下にその基本モデルを示す.


$\displaystyle J$ $\textstyle =$ $\displaystyle argmax_{e}P(j\vert e)$ (3.1)
  $\textstyle \simeq$ $\displaystyle argmax_{e}P(e\vert j)P(j)$ (3.2)

ここで$P(e\vert j)$は翻訳モデル,$P(j)$は言語モデルを示す.$P(j)$が単語であれば"単語に基づく統計翻訳"のモデル,$P(j)$が句であれば,"句に基づく統計翻訳"のモデルとなる.
また,学習データとは対訳データを大量に用意したものである. 学習データに含まれる各々のデータから, それぞれ翻訳モデルと言語モデルを学習する.



eki takashi 平成24年3月13日