統計翻訳システムの概要

次へ: 翻訳モデル 上へ: 統計翻訳 戻る: 統計翻訳目次

統計翻訳システムの概要

統計翻訳とは，翻訳する言語と目的言語の対訳文を大量に収集した対訳データを用いて, 自動的に翻訳モデルを作成し翻訳を行う，機械翻訳手法の一つである. 現在，統計翻訳システムとして, 「単語に基づく統計翻訳」「句に基づく統計翻訳」, 「階層型統計翻訳」が提案されている. なお, 本研究では「句に基づく統計翻訳」, 「階層型統計翻訳」の二つのシステムを使用する.

「単語に基づく統計翻訳」は対応する``は''や``に''のような単語が存在しない場合，何も無い状態から単語の発生確率を計算する．このため単語の確率における信頼性が問題となっている．よって現在は句単位の対応を用いた「句に基づく統計翻訳」が一般的に使用されている．そのため本研究では「単語に基づく統計翻訳」を使用しない.

図2.1に日英統計翻訳システムの枠組を示す.

図: 日英統計翻訳システムの枠組
$\includegraphics[width=12.5cm]{eps1/fig1.eps}$

日英統計翻訳は, まず日英対訳コーパスの学習によって, 翻訳モデル $P(j\big\vert e)$ と言語モデルを作成する. そして, 入力文として日本語文が与えられたとき, $P(j\big\vert e)$ との組み合わせから, 確率が最大となる英語文を探索し翻訳を行う. 統計翻訳の基本式を以下に示す.

$\displaystyle E$	$\textstyle =$	$\displaystyle argmax_{e}P\left(e\big\vert j\right)$	(2.1)
	$\textstyle \approx$	$\displaystyle argmax_{e}P\left(j\vert e\right)P\left(e\right)$	(2.2)

Subsections

平成26年3月7日