next up previous contents
Next: Model2 Up: IBM翻訳モデル Previous: IBM翻訳モデル   目次

Model1

式(3)は以下の式に置き換えられる.
$\displaystyle P(j,a\vert E) = P(m\vert E)\prod_{j=1}^{m}P(a_j\vert a_{1}^{j-1},j_{1}^{j-1},m,E)P(j_{j}\vert a_{1}^{j},j_{1}^{j-1},m,E)$     (2.2)

$ m$ は日本語文の文長を示す.また, $ a_{1}^{j-1}$ は日本語文の1単語目から$ j$ -1単語目までのアライメントである. そして $ j_{1}^{j-1}$ は日本語文の1番目から$ j$ -1番目までの単語を示す. ここで,Model1では以下を仮定している.

以上の仮定を用いて,式(4)は簡略化することができる.以下に式を示す.

$\displaystyle P(J,a\vert E)$ $\displaystyle =$ $\displaystyle \frac{\epsilon}{(l+1)^{m}} \prod_{j=1}^{m}t(j_{j}\vert e_{a_{j}})$ (2.3)
$\displaystyle P(J\vert E)$ $\displaystyle =$ $\displaystyle \frac{\epsilon}{(l+1)^{m}} \sum_{a_{1}=0}^{l} \cdots
\sum_{a_{m}=0}^{l} \prod_{j=1}^{m}t(j_{j}\vert e_{a_{j}})$ (2.4)
  $\displaystyle =$ $\displaystyle \frac{\epsilon}{(l+1)^{m}} \prod_{j=1}^{m} \sum_{i=0}^{l}t(j_{j}\vert e_{i})$ (2.5)

Model1において,翻訳確率 $ t(j\vert e)$ の初期値が0でない場合, EMアルゴリズムを用いて最適解を推定する.EMアルゴリズムの手順を以下に示す.

手順1
$ t(j\vert e)$ に初期値を設定する.
手順2
日本語と英語の対訳文($ J^{(s)}$ $ E^{(s)}$ )($ 1 \leq s$ $ \leq S$ )において,日単語$ j$ と英単語$ e$ が対応付けられる回数の期待値を求める. ここで $ \delta(j, j_j)$ は日本語文$ J$ において日単語$ j$ が出現する回数を表す.そして $ \delta(e, e_i)$ は英語文$ E$ において英単語$ e$ が出現する回数を表す.
$\displaystyle \displaystyle c(j\vert e;J,E) = \frac{t(j\vert e)}{t(j\vert e_0) + \cdots + t(j\vert e_l)} \sum^m_{j=1} \delta(j, j_j) \sum^l_{i=0} \delta(e, e_i)$     (2.6)

手順3
英語文$ E^{(s)}$ において,1回以上出現する英単語$ e$ に対して,翻訳確率 $ t(j\vert e)$ を計算する.

手順4
$ t(j\vert e)$ が収束するまで,手順2と手順3を繰り返す.


next up previous contents
Next: Model2 Up: IBM翻訳モデル Previous: IBM翻訳モデル   目次
2019-03-08