next up previous contents
次へ: 翻訳モデル 上へ: 英日統計翻訳システム 戻る: GIZA++   目次

句に基づく統計翻訳

句に基づく統計翻訳は句対応の翻訳モデルを用いる. 原言語文を目的言語文に翻訳する場合に, 隣接する複数の単語(フレーズ)を用いて翻訳を行う方法である. 本研究では英日方向の翻訳を行うため,英日統計翻訳を説明する.英日統計翻訳システムの枠組みを図3.1に示す.
図: 英日統計翻訳の枠組み
\includegraphics[width=13cm]{fig2.eps}
英日統計翻訳は,英語入力文$E$が与えられた場合に,翻訳モデルと言語モデルの組み合わせの中から確率が最大となる日本語翻訳文$J$を探索することで翻訳を行う.以下にその基本モデルを示す.


$\displaystyle J$ $\textstyle =$ $\displaystyle argmax_{e}P(j\vert e)$ (3.21)
  $\textstyle \simeq$ $\displaystyle argmax_{e}P(e\vert j)P(j)$ (3.22)

ここで$P(e\vert j)$は翻訳モデル,$P(j)$は言語モデルを示す.$P(j)$が単語であれば``単語に基づく統計翻訳''のモデル,$P(j)$が句であれば,``句に基づく統計翻訳''のモデルとなる.
また,学習データとは対訳文(英語文と日本語文の対)を大量に用意したものである. 学習データに含まれる各々のデータから, 翻訳モデルと言語モデルを学習する.



平成26年3月13日