Model1

Next: Model2 Up: IBM翻訳モデル Previous: IBM翻訳モデル目次

Model1

式(3)は以下の式に置き換えられる．

$\displaystyle P(j,a\vert E) = P(m\vert E)\prod_{j=1}^{m}P(a_j\vert a_{1}^{j-1},j_{1}^{j-1},m,E)P(j_{j}\vert a_{1}^{j},j_{1}^{j-1},m,E)$

(2.2)

$ m$ は日本語文の文長を示す．また， $a_{1}^{j-1}$ は日本語文の1単語目から -1単語目までのアライメントである．そして $j_{1}^{j-1}$ は日本語文の1番目から -1番目までの単語を示す．ここで，Model1では以下を仮定している．

日本語文の長さの確率 $\epsilon$ は，とに依存しない
$\epsilon \equiv P(m\vert E)$
アライメントの確率は英語文の長さにのみ依存する
$P(a_j\vert a_{1}^{j-1},j_{1}^{j-1},m,E) \equiv (l+1)^{-1}$
日本語の翻訳確率 $t(j_{j}\vert e_{a_{j}})$ は，日単語に対応する英単語にのみ依存する
$P(j_{j}\vert a_{1}^{j},j_{1}^{j-1},m,E) \equiv t(j_{j}\vert e_{a_{j}})$

以上の仮定を用いて，式(4)は簡略化することができる．以下に式を示す．

$\displaystyle P(J,a\vert E)$	$\displaystyle =$	$\displaystyle \frac{\epsilon}{(l+1)^{m}} \prod_{j=1}^{m}t(j_{j}\vert e_{a_{j}})$	(2.3)
$\displaystyle P(J\vert E)$	$\displaystyle =$	$\displaystyle \frac{\epsilon}{(l+1)^{m}} \sum_{a_{1}=0}^{l} \cdots \sum_{a_{m}=0}^{l} \prod_{j=1}^{m}t(j_{j}\vert e_{a_{j}})$	(2.4)
	$\displaystyle =$	$\displaystyle \frac{\epsilon}{(l+1)^{m}} \prod_{j=1}^{m} \sum_{i=0}^{l}t(j_{j}\vert e_{i})$	(2.5)

Model1において，翻訳確率 $t(j\vert e)$ の初期値が0でない場合， EMアルゴリズムを用いて最適解を推定する．EMアルゴリズムの手順を以下に示す．

手順1

$t(j\vert e)$ に初期値を設定する．

手順2

日本語と英語の対訳文( $J^{(s)}$ ， $E^{(s)}$ )( $1 \leq s$ $\leq S$ )において，日単語

と英単語

が対応付けられる回数の期待値を求める．ここで $\delta(j, j_j)$ は日本語文 $ J$

において日単語

が出現する回数を表す．そして $\delta(e, e_i)$ は英語文

において英単語

が出現する回数を表す．

$\displaystyle \displaystyle c(j\vert e;J,E) = \frac{t(j\vert e)}{t(j\vert e_0) + \cdots + t(j\vert e_l)} \sum^m_{j=1} \delta(j, j_j) \sum^l_{i=0} \delta(e, e_i)$

(2.6)

手順3

英語文 $E^{(s)}$ において，1回以上出現する英単語

に対して，翻訳確率 $t(j\vert e)$ を計算する．

定数 $\lambda_{e}$ を以下の式で計算する

$\displaystyle \lambda_{e} = \sum_{j} \sum_{s=1}^{S} c(j\vert e;J^{(s)},E^{(s)})$ (2.7)
上式で求めた定数 $\lambda_{e}$ を用いて $t(j\vert e)$ を以下の式で再計算する

$\displaystyle t(j\vert e)$ $\displaystyle =$ $\displaystyle \lambda_{e}^{-1} \sum_{s=1}^{S} c(j\vert e;J^{(s)},E^{(s)})$ (2.8)

$\displaystyle =$ $\displaystyle \frac{\sum_{s=1}^{S} c(j\vert e;J^{(s)},E^{(s)})}{\sum_{j} \sum_{s=1}^{S} c(j\vert e;J^{(s)},E^{(s)})}$ (2.9)

手順4

$t(j\vert e)$ が収束するまで，手順2と手順3を繰り返す．

Next: Model2 Up: IBM翻訳モデル Previous: IBM翻訳モデル目次

2019-03-08

$\displaystyle t(j\vert e)$	$\displaystyle =$	$\displaystyle \lambda_{e}^{-1} \sum_{s=1}^{S} c(j\vert e;J^{(s)},E^{(s)})$	(2.8)
	$\displaystyle =$	$\displaystyle \frac{\sum_{s=1}^{S} c(j\vert e;J^{(s)},E^{(s)})}{\sum_{j} \sum_{s=1}^{S} c(j\vert e;J^{(s)},E^{(s)})}$	(2.9)