next up previous contents
次へ: モデル3 上へ: IBM翻訳モデル 戻る: モデル1   目次

モデル2

モデル1では,全ての単語の対応に対して,英語文の長さ\(l\)にのみ依存し,単語 対応の確率を一定としている. そこで,モデル2では,\(j\)番目の仏単語\(f_j\)と対応する英単語の位置 \(a_j\)は英語文の長さ\(l\)に加えて,\(j\)と,フランス語文の長さ\(m\)に依 存し,以下のような関係とする.


$\displaystyle a(a_j\vert j, m, l) \equiv P(a_j\vert a^{j-1}_1, f^{j-1}_1, m, l)$     (3.11)

この関係からモデル1における(3.6)式は,以下の式に変換できる.


$\displaystyle P(F\vert E)$ $\textstyle =$ $\displaystyle \epsilon \sum^l_{a_1=0} \cdots \sum^l_{a_m=0} \prod^m_{j=1}
t(f_j\vert e_{a_j})a(a_j\vert j, m, l)$ (3.12)
  $\textstyle =$ $\displaystyle \epsilon \prod^m_{j=1} \sum^l_{i=0} t(f_j\vert e_{a_j})a(a_j\vert j, m, l)$ (3.13)

モデル2では,期待値は\(c(f\vert e;F,e)\) \(c(i\vert j,m,l;F,E)\)の2つが存在する.以 下の式から求められる.


$\displaystyle c(f\vert e;F,E)$ $\textstyle =$ $\displaystyle \frac{t(f\vert e)}{t(f\vert e_0) + \cdots + t(f\vert e_l)}
\sum^m_{j=1} \delta(f,f_j) \sum^l_{i=1} \delta(e,e_i)$ (3.14)
  $\textstyle =$ $\displaystyle \sum^m_{j=1} \sum^l_{i=0} \frac{t(f\vert e) a(i\vert j,m,l)
\del...
...e_i)} {t(f\vert e_0) a(0\vert j,m,l) + \cdots
+ t(f\vert e_l) a(l\vert j,m,l)}$ (3.15)
$\displaystyle c(i\vert j,m,l;F,E)$ $\textstyle =$ $\displaystyle \sum_a P(a\vert E,F) \delta(i,a_j)$ (3.16)
  $\textstyle =$ $\displaystyle \frac{t(f_j\vert e_i) a(i\vert j,m,l)}{t(f_j\vert e_0) a(0\vert j,m,l) +
\cdots + t(f_j\vert e_l)a(l\vert j,m,l)}$ (3.17)

\(c(f\vert e;F,E)\)は対訳文中の英単語\(e\)と仏単語\(f\)が対応付けされる回数の 期待値, \(c(i\vert j,m,l;F,E)\)は英単語の位置\(i\)が仏単語の位置\(j\)に対応付 けされる回数の期待値を表している.

モデル2では,EMアルゴリズムで計算すると複数の極大値が算出され,最適解が 得られない可能性がある.モデル1では \(a(i\vert j,m,l)={l+1}^{-1}\)となるモデル 2の特殊な場合であると考えられる.したがって,モデル1を用いることで最適解 を得ることができる.



平成24年3月23日