モデル2

次へ: モデル3 上へ: IBM翻訳モデル 戻る: モデル1 目次

モデル2

モデル1では，全ての単語の対応に対して，英語文の長さ $l$ にのみ依存し，単語対応の確率を一定としている．そこで，モデル2では， $j$ 番目の仏単語 $f_j$ と対応する英単語の位置 $a_j$ は英語文の長さ $l$ に加えて， $j$ と，フランス語文の長さ $m$ に依存し，以下のような関係とする．

$\displaystyle a(a_j\vert j, m, l) \equiv P(a_j\vert a^{j-1}_1, f^{j-1}_1, m, l)$

(3.9)

この関係からモデル1における(3.4)式は，以下の式に変換できる．

$\displaystyle P(F\vert E)$	$\textstyle =$	$\displaystyle \epsilon \sum^l_{a_1=0} \cdots \sum^l_{a_m=0} \prod^m_{j=1} t(f_j\vert e_{a_j})a(a_j\vert j, m, l)$	(3.10)
	$\textstyle =$	$\displaystyle \epsilon \prod^m_{j=1} \sum^l_{i=0} t(f_j\vert e_{a_j})a(a_j\vert j, m, l)$	(3.11)

モデル2では，期待値は $c(f\vert e;F,e)$ と $c(i\vert j,m,l;F,E)$ の2つが存在する．以下の式から求められる．

$\displaystyle c(f\vert e;F,E)$	$\textstyle =$	$\displaystyle \frac{t(f\vert e)}{t(f\vert e_0) + \cdots + t(f\vert e_l)} \sum^m_{j=1} \delta(f,f_j) \sum^l_{i=1} \delta(e,e_i)$	(3.12)
	$\textstyle =$	$\displaystyle \sum^m_{j=1} \sum^l_{i=0} \frac{t(f\vert e) a(i\vert j,m,l) \del... ...e_i)} {t(f\vert e_0) a(0\vert j,m,l) + \cdots + t(f\vert e_l) a(l\vert j,m,l)}$	(3.13)
$\displaystyle c(i\vert j,m,l;F,E)$	$\textstyle =$	$\displaystyle \sum_a P(a\vert E,F) \delta(i,a_j)$	(3.14)
	$\textstyle =$	$\displaystyle \frac{t(f_j\vert e_i) a(i\vert j,m,l)}{t(f_j\vert e_0) a(0\vert j,m,l) + \cdots + t(f_j\vert e_l)a(l\vert j,m,l)}$	(3.15)

$c(f\vert e;F,E)$ は対訳文中の英単語 $e$ と仏単語 $f$ が対応付けされる回数の期待値， $c(i\vert j,m,l;F,E)$ は英単語の位置 $i$ が仏単語の位置 $j$ に対応付けされる回数の期待値を表している．

モデル2では，EMアルゴリズムで計算すると複数の極大値が算出され，最適解が得られない可能性がある．モデル1では $a(i\vert j,m,l)=({l+1})^{-1}$ となるモデル 2の特殊な場合であると考えられる．したがって，モデル1を用いることで最適解を得ることができる．

平成26年3月13日