統計翻訳の概要

次へ: 翻訳モデル 上へ: 日英統計翻訳システム 戻る: 日英統計翻訳システム目次

統計翻訳の概要

統計翻訳とは，大量の対訳コーパス(原言語と目的言語の対訳文)より，自動的に翻訳規則を作成し翻訳を行う翻訳システムである．そのため，統計翻訳では，翻訳精度が対訳コーパスの量に大きく依存する．しかし，単言語コーパス(単言語のみのコーパス)は大量に入手しやすいが，対訳コーパスは作成に膨大なコストがかかるため，入手しにくい．図1に日英統計翻訳の手順を示す．

図: 日英統計翻訳手順
$\fbox{ \includegraphics[width=10cm]{smt.eps} }$

日英統計翻訳は，入力文として日本語文が与えられた場合に，翻訳モデルと言語モデルの組み合わせの中から確率が最大となる英語文を探索することで翻訳を行う．以下にその基本モデルを示す．

$\displaystyle 　E$	$\displaystyle =$	$\displaystyle \arg\max_e P(e\vert j)$	(1)
	$\displaystyle \simeq$	$\displaystyle \arg\max_e P(j\vert e)P(e)$	(2)

ここで， $P(j\vert e)$ は翻訳モデルであり，は言語モデルである．翻訳モデルは，対訳コーパスから学習し，言語モデルは目的言語の単言語コーパスから学習する．また，デコーダを用いて， $P(j\vert e)$ が最大となるEを探索する．デコーダの動作については，2.4節で説明する．

平成23年4月12日