次へ: 翻訳モデル 上へ: 日英統計翻訳システム 戻る: 日英統計翻訳システム目次

概要

統計翻訳において，「単語に基づく統計翻訳」と，「句に基づく統計翻訳」がある．初期の統計翻訳は，単語に基づく統計翻訳であった．しかし，近年提案された句に基づく統計翻訳は，語順の並び替えや文脈における訳語の選択や翻訳精度において，単語に基づく統計翻訳よりも優れている．よって，現在は句に基づく統計翻訳が主流となっている．そのため，本研究で扱う統計翻訳システムにおいても，句に基づく統計翻訳を用いる．また統計翻訳の特徴として，文法構造が似ている言語間では翻訳精度が高い傾向があり，文法構造の異なる言語間では翻訳精度が低い傾向がある．日英統計翻訳の枠組みを図2.1に示す．図2.1において，

は日本語コーパス，

は英語コーパスを表している．

図: 日英統計翻訳の枠組
$\fbox{ \includegraphics[width=150mm]{SMTmethod.eps} }$

日英統計翻訳では，日本語の1文を入力文とした場合に，翻訳モデル $P(j\vert e)$ と言語モデルの全ての組み合わせから，確率が最大となる英語の１文 $\hat{e}$ を出力文とする． $\hat{e}$ を探索するシステムをデコーダと呼ぶ．以下に基本的なモデルを示す．

$\displaystyle \hat{e}$	$\displaystyle =$	$\displaystyle arg\displaystyle \max_{e}P(e\vert j)$	(2.1)
	$\displaystyle \simeq$	$\displaystyle arg\displaystyle \max_{e}P(j\vert e)P(e)$	(2.2)

平成25年2月12日