next up previous contents
次へ: Model3 上へ: IBM翻訳モデル 戻る: Model1   目次

Model2

Model1において,アライメントの確率は英語文の長さlのみに依存する.そこで,Model2では,k単語目のアライメント$a_{k}$,日本語文の長さmにも依存するとし,以下のように示す.


$\displaystyle a(a_{k}\vert k,m,l) \equiv P(a_{k}\vert a_{1}^{k-1},j_{1}^{k-1},m,l)$     (2.11)

これより,(2.6)式は以下の式のようになる.
$\displaystyle P(J\vert E)$ $\textstyle =$ $\displaystyle \epsilon \sum_{a_{1}=0}^{l}…\sum_{a_{m}=0}^{l}\prod_{k=1}^{m}t(j_{k}\vert e_{a_{k}})a(a_{k}\vert k,m,l)$ (2.12)
  $\textstyle =$ $\displaystyle \epsilon \prod_{k=1}^{m}\sum_{i=0}^{l}t(j_{k}\vert e_{a_{k}})\alpha(l\vert k,m,l)$ (2.13)

Model2において,対訳文中の英単語$e$と日本語単語$j$が対応付けされる回数の期待値 $c(j\vert e;J^{(s)},E^{(s)})$と,日本語単語の位置$j$と英単語の位置$i$が対応付けられる回数の期待値 $c(i\vert k,m,l;J^{(s)},E^{(s)})$が存在する.これらは以下の式で求められる.
$\displaystyle c(j\vert e;J^{(s)},E^{(s)})$ $\textstyle =$ $\displaystyle \frac{t(j\vert e)}{t(j\vert e_{0}+…+t(j\vert e_{l})}\sum_{k=1}^{m}\delta(j\vert j_{k})\sum_{i=1}^{l}\delta(e\vert e_{i})$  
  $\textstyle =$ $\displaystyle \frac{t(j\vert e)\alpha(i\vert k,m,l)\delta(f\vert f_{k})\delta(e...
...{k}\vert e_{0})\alpha(0\vert k,m,l)+…+t(j_{k}\vert e_{l})\alpha(l\vert k,m,l)}$ (2.14)
$\displaystyle c(i\vert k,m,l;J^{(s)},E^{(s)})$ $\textstyle =$ $\displaystyle \sum_{a}P(a\vert e,j)\delta(i,a_{k})$  
  $\textstyle =$ $\displaystyle \frac{t(j\vert e)\alpha(i\vert k,m,l)}{t(j_{k}\vert e_{0}\alpha(0\vert k,m,l)+…+t(j_{k}\vert e_{l})\alpha(l\vert k,m,l)}$ (2.15)

なお,Model2は,EMアルゴリズムで計算した場合,複数の極大値を持ち,最適解を獲得できない場合がある.しかし,Model1は,Model2において, $a(i\vert k,m,l)=(l+1)^{-1}$となる特殊な状態であり,最適解を求めることができる.このため,Model2で最適解を求めるとき,Model1を用いる.



s102025 平成27年3月9日