Model1

次へ: Model2 上へ: 翻訳モデル 戻る: IBM翻訳モデル目次

Model1

(2.3)式は次のように書き換えることができる．このとき， $f=f_{1}^{m}$ はフランス語文において1単語目から $m$ 単語まで， $e=e_{1}^{l}$ は英語文において1単語目から $l$ 単語目まで， $a=a_{1}^{m}$ はフランス語文において1単語目から $m$ 単語目までのアライメントを表す．

$\displaystyle P(f\vert e)=P(m\vert e)\prod_{j=1}^{m}P(a_{j}\vert a_{1}^{j-1},f_{1}^{j-1},m,e)P(f_{j}\vert a_{1}^{j},f_{1}^{j-1},m,e)$

(2.4)

(2.4)式の右辺は，パラメータが多く複雑なため，計算が困難である．そこで，Model1では(2.4)式のパラメータを簡略化する．

文の長さの確率 $\epsilon(=\epsilon(m\vert l))$ は， $m$ および $e$ に独立する
$P(m\vert e) \equiv \epsilon(=\epsilon(m\vert l))$
アライメントの確率は英語文の長さ $l$ に依存する
$P(a_{j}\vert a_{1}^{j-1},f_{1}^{j-1},m,e) \equiv (l+1)^{-1}$
フランス語の翻訳確率 $t(f_{j}\vert e_{a_{j}})$ は，フランス単語 $f_{j}$ に対応づけられる英単語 $e_{a_{j}}$ に依存する
$P(f_{j}\vert a_{1}^{j},f_{1}^{j-1},m,e) \equiv t(f_{j}\vert e_{a_{j}})$

パラメータを簡略化した場合の $P(f,a\vert e)$ , $P(f\vert e)$ は以下になる．

$\displaystyle P(f,a\vert e)$	$\textstyle =$	$\displaystyle \frac{\epsilon}{(l+1^{m})}\prod_{j=1}^{m}t(f_{j}\vert e_{a_{j}})$	(2.5)
$\displaystyle P(f\vert e)$	$\textstyle =$	$\displaystyle \frac{\epsilon}{(l+1^{m})} \sum_{a_{1}=0}^{l}…\sum_{a_{m}=0}^{l}\prod_{j=1}^{m}t(f_{j}\vert e_{a_{j}})$	(2.6)
	$\textstyle =$	$\displaystyle \frac{\epsilon}{(l+1^{m})}\prod_{j=1}^{m}\sum_{i=0}^{l}t(f_{j}\vert e_{a_{j}})$	(2.7)

Model1は， $t(f\vert e)$ の初期値が0以外の時，EMアルゴリズムを繰り返して得られる唯一の極大値より最適解を推定する．EMアルゴリズムは以下の手順で行われる．

翻訳確率 $t(f\vert e)$ の初期値を設定する．
フランス語と英語の対訳( $f^{(s)}$ ， $e^{(s)}$ )，1 $\leq$ s $\leq$ Sにおいて，英単語とフランス単語が対応する回数の期待値 $c(f\vert e;f^{(s)},e^{(s)})$ を計算する．なお，期待値 $c(f\vert e;f^{(s)}，e^{(s)})$ は以下の式になる．

$\displaystyle c(f\vert e;f^{(s)},e^{(s)})=\frac{t(f\vert e)}{t(f\vert e_{0})+…... ...ert e_{l})}\sum_{j=1}^{m}\delta(f\vert f_{j})\sum_{i=1}^{l}\delta(e\vert e_{i})$ (2.8)

フランス語文のうちフランス単語 $f_{j}$ が出現する回数 $\sum_{j=1}^{m}\delta(f\vert f_{j})$ ，英語文のうち英単語 $e_{i}$ が出現する回数 $\sum_{i=1}^{l}\delta(e\vert e_{i})$ である
英語文のうち最低一回出現する英単語に対し，
- 定数 $\lambda_{e}$ を以下の式で計算する．
  
  $\displaystyle \lambda_{e}=\sum_{f}\sum_{s=1}^{S}c(f\vert e;f^{(s)},e^{(s)})$ (2.9)
- 翻訳確率 $t(f\vert e)$ を以下の式で再計算する．
  
  $\displaystyle t(f\vert e)$ $\textstyle =$ $\displaystyle \lambda_{e}\sum_{f}\sum_{s=1}^{S}c(f\vert e;f^{(s)},e^{(s)})$
  
  $\textstyle =$ $\displaystyle \frac{\sum_{s=1}^{S}c(f\vert e;f^{(s)},e^{(s)}}{\sum_{f}\sum_{s=1}^{S}c(f\vert e;f^{(s)},e^{(s)})}$ (2.10)
翻訳確率 $t(f\vert e)$ が収束するまでステップ2と3を繰り返す．

次へ: Model2 上へ: 翻訳モデル 戻る: IBM翻訳モデル目次

平成28年3月16日

$\displaystyle t(f\vert e)$	$\textstyle =$	$\displaystyle \lambda_{e}\sum_{f}\sum_{s=1}^{S}c(f\vert e;f^{(s)},e^{(s)})$
	$\textstyle =$	$\displaystyle \frac{\sum_{s=1}^{S}c(f\vert e;f^{(s)},e^{(s)}}{\sum_{f}\sum_{s=1}^{S}c(f\vert e;f^{(s)},e^{(s)})}$	(2.10)