モデル1

次へ: モデル2 上へ: IBM翻訳モデル 戻る: IBM翻訳モデル目次

(3.1)式は以下の式に分解することができる． $m$ はフランス語文の長さ， $a_1^{j-1}$ はフランス語文における，1番目から $j-1$ 番目までのアライメント， $f_1^{j-1}$ はフランス語文における，1番目から $j-1$ 番目まで単語を表している．

$\displaystyle P(F, a\vert E) = P(m\vert E) \prod_{j=1}^m P(a_j\vert a_1^{j-1}, f_1^{j-1}, m, E) P(f_j\vert a_1^j, f_1^{j-1}, m, E)$

(3.2)

(3.2)式ではとても複雑であるので計算が困難である．そこで，モデル1 では以下の仮定により，パラメータの簡略化を行う．

フランス語文の長さの確率 $\epsilon$ は $m$ , $E$ に依存しない

$\displaystyle P(m\vert E) = \epsilon$
アライメントの確率は英語文の長さ $l$ に依存する

$\displaystyle P(a_j\vert a_1^{j-1}, f_1^{j-1}, m, E) = (l + 1)^{-1}$
フランス語の翻訳確率 $t(f_j\vert e_{a_j})$ は，仏単語 $f_j$ に対応する英単語 $e_{a_j}$ に依存する

$\displaystyle P(f_j\vert a_1^j, f_1^{j-1}, m, e) = t(f_j\vert e_{a_j})$

パラメータの簡略化を行うことで， $P(F, a\vert E)$ と $P(F,E)$ は以下の式で表される．

$\displaystyle P(F, a\vert E)$	$\textstyle =$	$\displaystyle \frac{\epsilon}{(l+1)^m} \prod^m_{j=1} t(f_j\vert e_{a_j})$	(3.3)
$\displaystyle P(F\vert E)$	$\textstyle =$	$\displaystyle \frac{\epsilon}{(l+1)^m} \sum^l_{a_1=0} \cdots \sum^l_{a_m=0} \prod^m_{j=1} t(f_j\vert e_{a_j})$	(3.4)
	$\textstyle =$	$\displaystyle \frac{\epsilon}{(l+1)^m} \prod^m_{j=1} \sum^l_{i=0} t(f_j\vert e_{a_j})$	(3.5)

モデル1では翻訳確率 $t(f\vert e)$ の初期値が0以外の場合， Expectation-Maximization(EM)アルゴリズムを繰り返し行うことで得られる期待値を用いて最適解を推定する．EMアルゴリズムの手順を以下に示す．

手順1

翻訳確率 $t(f\vert e)$ の初期値を設定する．

手順2

仏英対訳対 $(F^{(s)}, E^{(s)})$ (但し， $1\leq s \leq S$ )において，仏単語 $f$ と英単語 $e$ が対応する回数の期待値を以下の式により計算する．

$\displaystyle c(f\vert e;F,E) = \frac{t(f\vert e)}{t(f\vert e_0) + \cdots + t(f\vert e_l)} \sum^m_{j=1} \delta(f, f_j) \sum^l_{i=0} \delta(e, e_i)$

(3.6)

$\delta(f, f_j)$ はフランス語文 $F$ 中で仏単語 $f$ が出現する回数， $\delta(e, e_i)$ は英語文 $E$ 中で英単語 $e$ が出現する回数を表している．

手順3

英語文 $E^{(s)}$ の中で1回以上出現する英単語 $e$ に対して，翻訳確率 $t(f\vert e)$ を計算する．

定数 $\lambda_e$ を以下の式により計算する．

$\displaystyle \lambda_e = \sum_f \sum^S_{s=1} c(f\vert e; F^{(s)}, E^{(s)})$ (3.7)
(3.7)式より求めた $\lambda_e$ を用いて，翻訳確率 $t(f\vert e)$ を再計算する．

$\displaystyle t(f\vert e)$ $\textstyle =$ $\displaystyle \lambda^{-1}_e \sum^S_{s=1} c(f\vert e; F^{(s)}, E^{(s)})$

$\textstyle =$ $\displaystyle \frac{\sum^S_{s=1} c(f\vert e; F^{(s)}, E^{(s)})}{\sum_f \sum^S_{s=1} c(f\vert e; F^{(s)}, E^{(s)})}$ (3.8)

手順4

翻訳確率 $t(f\vert e)$ が収束するまで手順2と手順3を繰り返す．

次へ: モデル2 上へ: IBM翻訳モデル 戻る: IBM翻訳モデル目次

平成26年3月13日

$\displaystyle t(f\vert e)$	$\textstyle =$	$\displaystyle \lambda^{-1}_e \sum^S_{s=1} c(f\vert e; F^{(s)}, E^{(s)})$
	$\textstyle =$	$\displaystyle \frac{\sum^S_{s=1} c(f\vert e; F^{(s)}, E^{(s)})}{\sum_f \sum^S_{s=1} c(f\vert e; F^{(s)}, E^{(s)})}$	(3.8)