next up previous contents
次へ: モデル2 上へ: IBM翻訳モデル 戻る: IBM翻訳モデル   目次

モデル1

(3.1)式は以下の式に分解することができる.\(m\)はフランス語文の長 さ,\(a_1^{j-1}\)はフランス語文における,1番目から\(j-1\)番目までのアライメント,\(f_1^{j-1}\)はフランス語文における,1番目から\(j-1\)番目まで単語を表している.
$\displaystyle P(F, a\vert E) = P(m\vert E) \prod_{j=1}^m P(a_j\vert a_1^{j-1}, f_1^{j-1}, m, E)
P(f_j\vert a_1^j, f_1^{j-1}, m, E)$     (3.2)

(3.2)式ではとても複雑であるので計算が困難である.そこで,モデル1 では以下の仮定により,パラメータの簡略化を行う.

パラメータの簡略化を行うことで,\(P(F, a\vert E)\)\(P(F,E)\)は以下の式で表 される.


$\displaystyle P(F, a\vert E)$ $\textstyle =$ $\displaystyle \frac{\epsilon}{(l+1)^m} \prod^m_{j=1} t(f_j\vert e_{a_j})$ (3.3)
$\displaystyle P(F\vert E)$ $\textstyle =$ $\displaystyle \frac{\epsilon}{(l+1)^m} \sum^l_{a_1=0} \cdots
\sum^l_{a_m=0} \prod^m_{j=1} t(f_j\vert e_{a_j})$ (3.4)
  $\textstyle =$ $\displaystyle \frac{\epsilon}{(l+1)^m} \prod^m_{j=1} \sum^l_{i=0} t(f_j\vert e_{a_j})$ (3.5)

モデル1では翻訳確率\(t(f\vert e)\)の初期値が0以外の場合, Expectation-Maximization(EM)アルゴリズムを繰り返し行うことで得られる期待 値を用いて最適解を推定する.EMアルゴリズムの手順を以下に示す.

手順1
翻訳確率\(t(f\vert e)\)の初期値を設定する.

手順2
仏英対訳対 \((F^{(s)}, E^{(s)})\)(但し, \(1\leq s \leq S\))において,仏単語\(f\)と英単語\(e\)が対応する回数の期待値を以下の式により計算する.
$\displaystyle c(f\vert e;F,E) = \frac{t(f\vert e)}{t(f\vert e_0) + \cdots + t(f\vert e_l)} \sum^m_{j=1}
\delta(f, f_j) \sum^l_{i=0} \delta(e, e_i)$     (3.6)

\(\delta(f, f_j)\)はフランス語文\(F\)中で仏単語 \(f\)が出現する回数, \(\delta(e, e_i)\)は英語文\(E\)中で英単語\(e\) が出現する回数を表している.

手順3
英語文\(E^{(s)}\)の中で1回以上出現する英単語\(e\)に対して,翻訳確率\(t(f\vert e)\)を計算する.

  1. 定数\(\lambda_e\)を以下の式により計算する.
    $\displaystyle \lambda_e = \sum_f \sum^S_{s=1} c(f\vert e; F^{(s)}, E^{(s)})$     (3.7)

  2. (3.7)式より求めた\(\lambda_e\)を用いて,翻訳確率\(t(f\vert e)\)を再計算する.
    $\displaystyle t(f\vert e)$ $\textstyle =$ $\displaystyle \lambda^{-1}_e \sum^S_{s=1} c(f\vert e; F^{(s)}, E^{(s)})$  
      $\textstyle =$ $\displaystyle \frac{\sum^S_{s=1} c(f\vert e; F^{(s)}, E^{(s)})}{\sum_f
\sum^S_{s=1} c(f\vert e; F^{(s)}, E^{(s)})}$ (3.8)

手順4
翻訳確率\(t(f\vert e)\)が収束するまで手順2と手順3を繰り返す.


next up previous contents
次へ: モデル2 上へ: IBM翻訳モデル 戻る: IBM翻訳モデル   目次
平成26年3月13日