モデル２

次へ: モデル３ 上へ: IBM翻訳モデル 戻る: モデル１目次

モデル２

モデル１において，アライメントの確率は英語文の長さ

にのみ依存する．そこでモデル２では，英語文の長さ

に加え，

単語目のアライメント $a_{k}$ ，日本語文の長さ

に依存するとし，以下の式で表す．

$\displaystyle a(a_{k}\vert k,m,l) \equiv P(a_{k}\vert a_{1}^{k-1},j_{1}^{k-1},m,l)$

(2.12)

よって，モデル１の式2.6は以下のように置き換えられる．

$\displaystyle P(J\vert E)$	$\displaystyle =$	$\displaystyle \epsilon \sum_{a_{1}=0}^{l} \cdots \sum_{a_{m}=0}^{l} \prod_{k=1}^{m}t(j_{k}\vert e_{a_{k}})a(a_{k}\vert k,m,l)$	(2.13)
	$\displaystyle =$	$\displaystyle \epsilon \prod_{k=1}^{m} \sum_{i=0}^{l}t(j_{k}\vert e_{i})a(i\vert k,m,l)$	(2.14)

モデル２において，対訳文中の英単語と日単語が対応付けされる回数の期待値である $c(j\vert e;J^{(s)},E^{(s)})$ と，日単語の位置と英単語の位置が対応付けられる回数の期待値 $c(i\vert k,m,l;J^{(s)},E^{(s)})$ が存在する．以下に，期待値 $c(j\vert e;J^{(s)},E^{(s)})$ と $c(i\vert k,m,l;J^{(s)},E^{(s)})$ を求める式を示す．

$\displaystyle c(j\vert e;J^{(s)},E^{(s)})$	$\displaystyle =$	$\displaystyle \sum_{k=1}^{m} \sum_{i=0}^{l} \frac{t(j\vert e)a(i\vert k,m,l)\d... ...)}{t(j\vert e_{0})a(0\vert k,m,l) ＋ \cdots ＋ t(j\vert e_{l})a(l\vert k,m,l)}$	(2.15)
$\displaystyle c(i\vert k,m,l;J^{(s)},E^{(s)})$	$\displaystyle =$	$\displaystyle \frac{t(j_{k}\vert e_{i})a(i\vert k,m,l)}{t(j_{j}\vert e_{0})a(0\vert k,m,l) ＋ \cdots ＋ t(j_{k}\vert e_{l})a(l\vert k,m,l)}$	(2.16)

モデル２においても，最適解を推定するためにEMアルゴリズムを用いる．しかし，計算によって複数の極大値が算出され，最適解が獲得できない場合が存在する．モデル２の特殊な場合に， $a(i\vert k,m,l)= (l+1)^{-1}$ が挙げられるが，これはモデル１として考えることができる．また，最適解が保証されているモデル１で求められた値を初期値として用いることで，最適解を求めることができる．

平成25年2月12日