Model1

次へ: Model2 上へ: IBM翻訳モデル 戻る: IBM翻訳モデル目次

Model1

(2.3)式は次のように置き換えられる．

$\displaystyle P(J,a\vert E)=P(m\vert E)\prod_{k=1}^{m}P(a_{k}\vert a_{1}^{k-1},j_{1}^{k-1},m,E)P(j_{k}\vert a_{1}^{k},j_{1}^{k-1},m,E)$

(2.4)

は日本語の文長であり， $a_{1}^{k-1}$ は日本語文の1単語目から単語目までのアライメントである．また， $j_{1}^{k-1}$ は日本語文の1番目から番目までの単語を示す． (2.4)式の右辺は，パラメータが多く複雑なため，計算が困難である．そこで，Model1では(2.4)式のパラメータを簡略化する．

文の長さの確率 $\epsilon$ は，mとEに依存しない
$\epsilon \equiv P(m\vert e)$
アライメントの確率は英語文の長さlに依存する
$P(a_{k}\vert a_{1}^{k-1},J_{1}^{k-1},m,E) \equiv (l+1)^{-1}$
日本語の翻訳確率 $t(J_{k}\vert e_{a_{k}})$ は，日本語単語 $J_{k}$ に対応づけられる英単語 $e_{a_{k}}$ に依存する
$P(J_{k}\vert a_{1}^{k},J_{1}^{k-1},m,E) \equiv t(J_{k}\vert e_{a_{k}})$

これらの定理を用いて，パラメータを簡略化した場合の $P(J,a\vert E)$ , $P(J\vert E)$ は以下になる．

$\displaystyle P(J,a\vert E)$	$\textstyle =$	$\displaystyle \frac{\epsilon}{(l+1^{m})}\prod_{k=1}^{m}t(j_{k}\vert e_{a_{k}})$	(2.5)
$\displaystyle P(J\vert E)$	$\textstyle =$	$\displaystyle \frac{\epsilon}{(l+1^{m})} \sum_{a_{1}=0}^{l}…\sum_{a_{m}=0}^{l}\prod_{k=1}^{m}t(j_{k}\vert e_{a_{k}})$	(2.6)
	$\textstyle =$	$\displaystyle \frac{\epsilon}{(l+1^{m})}\prod_{k=1}^{m}\sum_{i=0}^{l}t(j_{k}\vert e_{i})$	(2.7)

Model1は，翻訳確率 $t(j\vert e)$ の初期値が0以外の時，EMアルゴリズムを繰り返して得られる唯一の極大値より最適解を推定する．EMアルゴリズムは以下の手順で行われる．

手順1

翻訳確率 $t(j\vert e)$ の初期値を設定する

手順2

日本語と英語の対訳文( $J^{(s)}$ ， $E^{(s)}$ )，1 $\leq$ s $\leq$ Sにおいて，日本語単語

と英単語

が対応する回数の期待値を計算する．ここで $\delta(j\vert j_{k})$ は日本語文

において日本語単語

が出現する回数を表し， $\delta(e\vert e_{i})$ は英語文

において英単語

が出現する回数を表す．

$\displaystyle c(j\vert e;J,E)=\frac{t(j\vert e)}{t(j\vert e_{0}+…+t(j\vert e_{l})}\sum_{k=1}^{m}\delta(j\vert j_{k})\sum_{i=1}^{l}\delta(e\vert e_{i})$

(2.8)

手順3

英語文 $E^{(s)}$ のうち1回以上出現する英単語

に対し，翻訳確率 $t(j\vert e)$ を計算する．ここで

は日英対訳文の文数を表す．

定数 $\lambda_{e}$ を以下の式で計算する．

$\displaystyle \lambda_{e}=\sum_{j}\sum_{s=1}^{S}c(j\vert e;J^{(s)},E^{(s)})$ (2.9)
翻訳確率 $t(j\vert e)$ を以下の式で再計算する．

$\displaystyle t(j\vert e)$ $\textstyle =$ $\displaystyle \lambda_{e}^{-1}\sum_{s=1}^{S}c(j\vert e;J^{(s)},E^{(s)})$

$\textstyle =$ $\displaystyle \frac{\sum_{s=1}^{S}c(j\vert e;J^{(s)},E^{(s)}}{\sum_{k}\sum_{s=1}^{S}c(j\vert e;J^{(s)},E^{(s)})}$ (2.10)

手順4

翻訳確率 $t(j\vert e)$ が収束するまで手順2と3を繰り返す

次へ: Model2 上へ: IBM翻訳モデル 戻る: IBM翻訳モデル目次

s102025 平成27年3月9日

$\displaystyle t(j\vert e)$	$\textstyle =$	$\displaystyle \lambda_{e}^{-1}\sum_{s=1}^{S}c(j\vert e;J^{(s)},E^{(s)})$
	$\textstyle =$	$\displaystyle \frac{\sum_{s=1}^{S}c(j\vert e;J^{(s)},E^{(s)}}{\sum_{k}\sum_{s=1}^{S}c(j\vert e;J^{(s)},E^{(s)})}$	(2.10)