next up previous contents
次へ: 翻訳モデル 上へ: 日英統計翻訳システム 戻る: 日英統計翻訳システム   目次

概要

統計翻訳において,「単語に基づく統計翻訳」と,「句に基づく統計翻訳」がある. 初期の統計翻訳は,単語に基づく統計翻訳であった.しかし,近年提案された句に基づく統計翻訳[5]は,語順の並び替えや文脈における訳語の選択や翻訳精度において,単語に基づく統計翻訳よりも優れている.よって,現在は句に基づく統計翻訳が主流となっている.そのため,本研究で扱う統計翻訳システムにおいても,句に基づく統計翻訳を用いる. また統計翻訳の特徴として,文法構造が似ている言語間では翻訳精度が高い傾向があり,文法構造の異なる言語間では翻訳精度が低い傾向がある. 日英統計翻訳の枠組みを図1に示す.
図: 日英統計翻訳の枠組
\fbox{
\includegraphics[width=150mm]{SMTmethod.eps}
}

日英統計翻訳では,日本語文$j$を入力文とした場合に,翻訳モデル$P(j\vert e)$と言語モデル$P(e)$の 全ての組み合わせから,確率が最大となる英語文$\hat{e}$を出力文とする.$E$を探索するシステムをデコーダと呼ぶ.以下に基本的なモデルを示す.


$\displaystyle E$ $\textstyle =$ $\displaystyle arg\displaystyle \max_{e}P(e\vert j)$ (1)
  $\textstyle \simeq$ $\displaystyle arg\displaystyle \max_{e}P(j\vert e)P(e)$ (2)



平成23年3月3日