next up previous contents
次へ: 翻訳モデル 上へ: 日英統計翻訳システム 戻る: 日英統計翻訳システム   目次

概要

統計翻訳において,「単語に基づく統計翻訳」と,「句に基づく統計翻訳」がある. 初期の統計翻訳は,単語に基づく統計翻訳であった.しかし,近年提案された句に基づく統計翻訳は,語順の並び替えや文脈における訳語の選択や翻訳精度において,単語に基づく統計翻訳よりも優れている.よって,現在は句に基づく統計翻訳が主流となっている.そのため,本研究で扱う統計翻訳システムにおいても,句に基づく統計翻訳を用いる. また統計翻訳の特徴として,文法構造が似ている言語間では翻訳精度が高い傾向があり,文法構造の異なる言語間では翻訳精度が低い傾向がある. 日英統計翻訳の枠組みを図2.1に示す.図2.1において,$ J$ は日本語コーパス,$ E$ は英語コーパスを表している.
図: 日英統計翻訳の枠組
\fbox{
\includegraphics[width=150mm]{SMTmethod.eps}
}

日英統計翻訳では,日本語の1文$ j$ を入力文とした場合に,翻訳モデル$ P(j\vert e)$ と言語モデル$ P(e)$ の 全ての組み合わせから,確率が最大となる英語の1文$ \hat{e}$ を出力文とする.$ \hat{e}$ を探索するシステムをデコーダと呼ぶ.以下に基本的なモデルを示す.


$\displaystyle \hat{e}$ $\displaystyle =$ $\displaystyle arg\displaystyle \max_{e}P(e\vert j)$ (2.1)
  $\displaystyle \simeq$ $\displaystyle arg\displaystyle \max_{e}P(j\vert e)P(e)$ (2.2)



平成25年2月12日