next up previous contents
次へ: Model3 上へ: IBM翻訳モデル 戻る: Model1   目次

Model2

Model1では,アライメントの確率は英語文の長さ$l$のみに依存すると仮定した.し かしながら,Model2では,英語文の長さ$l$に加え,$j$単語目のアライメント $a_{j}$,フランス語文の長さ$m$に依存すると仮定し,以下の式で表すことがで きる.
$\displaystyle a(a_{j}\vert j,m,l) \equiv P(a_{j}\vert a_{1}^{j-1},f_{1}^{f-1},m,l)$     (12)

これによって,式(6)は以下の式に置き換えることができる.

$\displaystyle P(f\vert e)$ $\textstyle =$ $\displaystyle \epsilon \sum_{a_{1}=0}^{l} \cdots \sum_{a_{m}=0}^{l}
\prod_{j=1}^{m}t(f_{j}\vert e_{a_{j}})a(a_{j}\vert j,m,l)$ (13)
  $\textstyle =$ $\displaystyle \epsilon \prod_{j=1}^{m} \sum_{i=0}^{l}t(f_{j}\vert e_{i})a(i\vert j,m,l)$ (14)

ラグランジェの未定係数法を用いて,制約条件 $\sum_{f}t(f\vert e)$ $\sum_{i=0}^{l}a(i\vert j,m,l)=1$のもとでP(f|e) の最大化を行なう問題を解くと,期待値を求める式が2つ得られる. 以下に期待値を求める2つの式を示す.

$\displaystyle c(f\vert e;f^{(s)},e^{(s)})$ $\textstyle =$ $\displaystyle \sum_{j=1}^{m} \sum_{i=0}^{l}
\frac{t(f\vert e)a(i\vert j,m,l)\de...
...})}{t(f\vert e_{0})a(0\vert j,m,l)
+ \cdots + t(f\vert e_{l})a(l\vert j,m,l)}$ (15)
$\displaystyle c(i\vert j,m,l;f^{(s)},e^{(s)})$ $\textstyle =$ $\displaystyle \frac{t(f_{j}\vert e_{i})a(i\vert j,m,l)}{t(f_{j}\vert e_{0})a(0\vert j,m,l) + \cdots +
t(f_{j}\vert e_{l})a(l\vert j,m,l)}$ (16)

$c(f\vert e;f^{(s)},e^{(s)})$は,フランス語と英語の対訳文のフランス単語$f$と 英単語$e$が対応付けられる回数の期待値を示し, $c(i\vert j,m,l;f^{(s)},e^{(s)})$は,フランス単語の位置$j$と英単語の位置$i$が 対応付けられる回数の期待値を示す.
また,以下に示すEMアルゴリズムを用いて最適解を推定する.

手順1
$t(f\vert e)$に適当な初期値を設定する
手順2
フランス語と英語の対訳文($f^{(s)}$$e^{(s)}$),$1 \leq s$ $\leq S$において,期待値を式()と式()によって求める
手順3
手順2からそれぞれの総和を求め,正規化を行なうことで再計算す る
手順4
$t(f\vert e)$が収束するまで,手順2と手順3を繰り返す

Model2は,上記のようなEMアルゴリズムで計算した場合,複数の極大値を持つた め,必ず最適解が得られる保証はない.しかしながら,Model2の特別な場合として, $a(i\vert j,m,l)= (l+1)^{-1}$になることが考えられる.これはModel1として考える ことができる.また,Model1は最適解が保証されているため,初期値として Model1によって求められた値を用いる.



平成22年2月11日