model2

次へ: model3 上へ: IBM翻訳モデル 戻る: model1 目次

model2

model1において，アライメントの確率は英語文の長さ

にのみ依存する．そこでmodel2では，英語文の長さ

に加え，

単語目のアライメント $a_{j}$ ，日本語文の長さ

に依存するとし，以下の式で表す．

$\displaystyle a(a_{j}\vert j,m,l) \equiv P(a_{j}\vert a_{1}^{j-1},j_{1}^{j-1},m,l)$

(12)

よって，model1の式(6)は以下のように置き換えられる．

$\displaystyle P(J\vert E)$	$\textstyle =$	$\displaystyle \epsilon \sum_{a_{1}=0}^{l} \cdots \sum_{a_{m}=0}^{l} \prod_{j=1}^{m}t(j_{j}\vert e_{a_{j}})a(a_{j}\vert j,m,l)$	(13)
	$\textstyle =$	$\displaystyle \epsilon \prod_{j=1}^{m} \sum_{i=0}^{l}t(j_{j}\vert e_{i})a(i\vert j,m,l)$	(14)

model2において，対訳文中の英単語と日単語が対応付けされる回数の期待値である $c(j\vert e;J^{(s)},E^{(s)})$ と，日単語の位置と英単語の位置が対応付けられる回数の期待値 $c(i\vert j,m,l;J^{(s)},E^{(s)})$ が存在する．以下に，期待値 $c(j\vert e;J^{(s)},E^{(s)})$ と $c(i\vert j,m,l;J^{(s)},E^{(s)})$ を求める式を示す．

$\displaystyle c(j\vert e;J^{(s)},E^{(s)})$	$\textstyle =$	$\displaystyle \sum_{j=1}^{m} \sum_{i=0}^{l} \frac{t(j\vert e)a(i\vert j,m,l)\d... ...)}{t(j\vert e_{0})a(0\vert j,m,l) ＋ \cdots ＋ t(j\vert e_{l})a(l\vert j,m,l)}$	(15)
$\displaystyle c(i\vert j,m,l;J^{(s)},E^{(s)})$	$\textstyle =$	$\displaystyle \frac{t(j_{j}\vert e_{i})a(i\vert j,m,l)}{t(j_{j}\vert e_{0})a(0\vert j,m,l) ＋ \cdots ＋ t(j_{j}\vert e_{l})a(l\vert j,m,l)}$	(16)

model2においても，最適解を推定するためにEMアルゴリズムを用いる．しかし，計算によって複数の極大値が算出され，最適解が得られない場合が存在する．model2の特殊な場合に， $a(i\vert j,m,l)= (l+1)^{-1}$ が挙げられるが，これはmodel1として考えることができる．また，最適解が保証されているmodel1で求められた値を初期値として用いることで，最適解を求めることができる．

平成23年3月3日