next up previous contents
次へ: 翻訳モデル 上へ: 統計翻訳 戻る: 統計翻訳   目次

統計翻訳システムの概要

統計翻訳とは,翻訳する言語と目的言語の対訳文を大量に収集した対訳データを用いて, 自動的に翻訳モデルを作成し翻訳を行う,機械翻訳手法の一つである. 現在,統計翻訳システムとして, 「単語に基づく統計翻訳」 「句に基づく統計翻訳」, 「階層型統計翻訳」 が提案されている. なお, 本研究では「句に基づく統計翻訳」, 「階層型統計翻訳」の二つのシステムを使用する.

「単語に基づく統計翻訳」は対応する``は''や``に''のような単語が存在しない場合,何も無い状態から単語の発生確率を計算する. このため単語の確率における信頼性が問題となっている. よって現在は句単位の対応を用いた「句に基づく統計翻訳」が一般的に使用されている. そのため本研究では「単語に基づく統計翻訳」を使用しない.

2.1に日英統計翻訳システムの枠組を示す.

図: 日英統計翻訳システムの枠組
\includegraphics[width=12.5cm]{eps1/fig1.eps}

日英統計翻訳は, まず日英対訳コーパスの学習によって, 翻訳モデル$P(j\big\vert e)$と言語モデル$P(e)$を作成する. そして, 入力文として日本語文$J$が与えられたとき, $P(j\big\vert e)$$P(e)$の組み合わせから, 確率が最大となる英語文$E$を探索し翻訳を行う. 統計翻訳の基本式を以下に示す.


$\displaystyle E$ $\textstyle =$ $\displaystyle argmax_{e}P\left(e\big\vert j\right)$ (2.1)
  $\textstyle \approx$ $\displaystyle argmax_{e}P\left(j\vert e\right)P\left(e\right)$ (2.2)




Subsections

平成26年3月7日