モデル3

次へ: モデル4 上へ: IBM翻訳モデル 戻る: モデル2 目次

モデル3

モデル3は，モデル1とモデル2とは異なり，1つの単語が複数対応する単語の繁殖数や単語の翻訳位置の歪みについて考慮する．またモデル3では単語の位置を絶対位置として考える．モデル3では以下のパラメータを用いる．

翻訳確率 $P(f\vert e)$
英単語 $e$ が仏単語 $f$ に翻訳される確率
繁殖確率 $n(\phi\vert e)$
英単語 $e$ が $\phi$ 個の仏単語と対応する確率
歪み確率 $d(j\vert i,m,l)$
英語文の長さ $l$ ，フランス語文の長さ $m$ のとき， $i$ 番目の英単語 $e_i$ が $j$ 番目の仏単語 $f_j$ に翻訳される確率

さらに，英単語が仏単語に翻訳されない個数を $\phi_0$ とし，その確率 $p_0$ を以下の式で求める．このとき，歪み確率は $\frac{1}{\phi_0!}$ で， $p_0 + p_1 = 1$ で $p_0$ ， $p_1$ は0より大きいとする．

$\displaystyle P(\phi_0\vert\phi^l_1,E) = \left( \begin{array}{c} \phi_1 + \cdot... ... \phi_0 \end{array}\right) p_0^{\phi_1 + \cdots + \phi_l - \phi_0} p_1^{\phi_0}$

(3.18)

したがって，モデル3は以下の式で求められる．

$\displaystyle P(F\vert E)$	$\textstyle =$	$\displaystyle \sum^l_{a_1=0} \cdots \sum^l_{a_m=0} P(F,a\vert E)$	(3.19)
	$\textstyle =$	$\displaystyle \sum^l_{a_1=0} \cdots \sum^l_{a_m=0} \left( \begin{array}{c} m -... ...y}\right) p_0^{m-2\phi_0} p_1^{\phi_0} \prod^l_{i=1} \phi_i! n(\phi_i\vert e_i)$
	$\textstyle \times$	$\displaystyle \prod^m_{j=1} t(f_j\vert e_{a_j}) d(j\vert a_j,m,l)$	(3.20)

モデル3では，全てのアライメントを計算するため，計算量が膨大となるので期待値を近似により求める．

平成24年3月23日