next up previous contents
次へ: 1)単語ベース統計翻訳 上へ: 統計翻訳 戻る: 統計翻訳   目次


統計翻訳の概要

日英統計翻訳は,入力文として日本語文$ j$ が与えられた場合に,翻訳モデルと言語モデルの組み合わせの中から確率が最大となる英語文$ \hat{e}$ を探索することで翻訳を行う.以下にその基本モデルを示す.
$\displaystyle  \hat{e}$ $\displaystyle =$ $\displaystyle \arg\max_e P(e\vert j)$ (2.1)
  $\displaystyle \approx$ $\displaystyle \arg\max_e P(j\vert e)P(e)$ (2.2)

ここで,$ P(j\vert e)$ は翻訳モデルであり,$ P(e)$ は言語モデルである.翻訳モデルは対訳コーパスから学習し,言語モデルは目的言語の単言語コーパスから学習する. また,デコーダを用いて,$ P(j\vert e)$ $ P(e)$ が最大となる$ \hat{e}$ を探索する.デコーダの動作については,2.2.3節で説明する. 図2.1に日英統計翻訳の手順を示す.

手順1
学習データ(日英対訳文)を利用し,翻訳モデルを学習する.
手順2
学習データの英語文を利用し,言語モデルを学習する.
手順3
入力の日本語文に対して,翻訳モデルの確率と言語モデルの確率を掛け合わせた翻訳確率が最大となる英語文を出力する.

図: 日英統計翻訳手順
\fbox{
\includegraphics[width=10cm]{smt.eps}
}

統計翻訳の主な翻訳方式として,単語ベース統計翻訳,句ベース統計翻訳,階層句統計翻訳がある.以下に,単語ベース統計翻訳,句ベース統計翻訳,階層句統計翻訳それぞれの特徴を示す.



Subsections

平成25年2月13日