・モデル2

モデル1では, 全ての単語の対応に対して, 英語文の長さ$ l$にのみ依存し, 単語対応の確率を一定としている. そこで, モデル2では, $ j$番目の仏単語$ f_j$と対応する英単語の位置 $ a_j$は英語文の長さ$ l$に加えて, $ j$と, フランス語文の長さ$ m$に依 存し, 以下のような関係とする.
$\displaystyle a(a_j\vert j, m, l) \equiv P(a_j\vert a^{j-1}_1, f^{j-1}_1, m, l)$     (2.9)

この関係からモデル1における(2.4)式は, 以下の式に変換できる.

$\displaystyle P(F\vert E)$ $\displaystyle =$ $\displaystyle \epsilon \sum^l_{a_1=0} \cdots \sum^l_{a_m=0} \prod^m_{j=1}
t(f_j\vert e_{a_j})a(a_j\vert j, m, l)$ (2.10)
  $\displaystyle =$ $\displaystyle \epsilon \prod^m_{j=1} \sum^l_{i=0} t(f_j\vert e_{a_j})a(a_j\vert j, m, l)$ (2.11)

モデル2では, 期待値は $ c(f\vert e;F,e)$ $ c(i\vert j,m,l;F,E)$の2つが存在する.以下の式から求められる.

$\displaystyle c(f\vert e;F,E)$ $\displaystyle =$ $\displaystyle \frac{t(f\vert e)}{t(f\vert e_0) + \cdots + t(f\vert e_l)}
\sum^m_{j=1} \delta(f,f_j) \sum^l_{i=1} \delta(e,e_i)$ (2.12)
  $\displaystyle =$ $\displaystyle \sum^m_{j=1} \sum^l_{i=0} \frac{t(f\vert e) a(i\vert j,m,l)
\delt...
...,e_i)} {t(f\vert e_0) a(0\vert j,m,l) + \cdots
+ t(f\vert e_l) a(l\vert j,m,l)}$ (2.13)
$\displaystyle c(i\vert j,m,l;F,E)$ $\displaystyle =$ $\displaystyle \sum_a P(a\vert E,F) \delta(i,a_j)$ (2.14)
  $\displaystyle =$ $\displaystyle \frac{t(f_j\vert e_i) a(i\vert j,m,l)}{t(f_j\vert e_0) a(0\vert j,m,l) +
\cdots + t(f_j\vert e_l)a(l\vert j,m,l)}$ (2.15)


$ c(f\vert e;F,E)$は対訳文中の英単語$ e$と仏単語$ f$が対応付けされる回数の 期待値, $ c(i\vert j,m,l;F,E)$は英単語の位置$ i$が仏単語の位置$ j$に対応付 けされる回数の期待値を表している.

モデル2では, EMアルゴリズムで計算すると複数の極大値が算出され, 最適解が 得られない可能性がある.モデル1では $ a(i\vert j,m,l)=({l+1})^{-1}$となるモデル 2の特殊な場合であると考えられる.したがって, モデル1を用いることで最適解 を得ることができる.