概要

次へ: 翻訳モデル 上へ: 日英統計翻訳システム 戻る: 日英統計翻訳システム目次

概要

統計翻訳において，「単語に基づく統計翻訳」と，「句に基づく統計翻訳」がある．初期の統計翻訳は，単語に基づく統計翻訳であった．しかし，近年提案された句に基づく統計翻訳[5]は，語順の並び替えや文脈における訳語の選択や翻訳精度において，単語に基づく統計翻訳よりも優れている．よって，現在は句に基づく統計翻訳が主流となっている．そのため，本研究で扱う統計翻訳システムにおいても，句に基づく統計翻訳を用いる．また統計翻訳の特徴として，文法構造が似ている言語間では翻訳精度が高い傾向があり，文法構造の異なる言語間では翻訳精度が低い傾向がある．日英統計翻訳の枠組みを図1に示す．

図: 日英統計翻訳の枠組
$\fbox{ \includegraphics[width=150mm]{SMTmethod.eps} }$

日英統計翻訳では，日本語文

を入力文とした場合に，翻訳モデル $P(j\vert e)$ と言語モデル

の全ての組み合わせから，確率が最大となる英語文 $\hat{e}$ を出力文とする．

を探索するシステムをデコーダと呼ぶ．以下に基本的なモデルを示す．

$\displaystyle E$	$\textstyle =$	$\displaystyle arg\displaystyle \max_{e}P(e\vert j)$	(1)
	$\textstyle \simeq$	$\displaystyle arg\displaystyle \max_{e}P(j\vert e)P(e)$	(2)

平成23年3月3日