モデル1

次へ: モデル2 上へ: 翻訳モデル 戻る: IBMモデル目次

モデル1

式(2.2)は以下の式に分解することができる．

は日本語文の長さ， $a_1^{i-1}$ は日本語語文における，1番目から

番目までのアライメント， $j_1^{i-1}$ は日本語文における，1番目から

番目まで単語を表している．

$\displaystyle P(J, a\vert E) = P(m\vert E) \prod_{i=1}^m P(a_i\vert a_1^{i-1}, j_1^{i-1}, m, E) P(j_i\vert a_1^i, j_1^{i-1}, m, E)$

(2.3)

式(2.3)はとても複雑であるので計算が困難である．そこで，モデル1 では以下の仮定により，パラメータの簡略化を行う．

日本語文の長さの確率 $\epsilon$ は , に依存しない

$\displaystyle P(m\vert E) = \epsilon$
アライメントの確率は英語文の長さに依存する

$\displaystyle P(a_i\vert a_1^{i-1}, j_1^{i-1}, m, E) = (l + 1)^{-1}$
日本語の翻訳確率 $t(j_i\vert e_{a_i})$ は，日本語単語に対応する英単語 $e_{a_i}$ に依存する

$\displaystyle P(j_i\vert a_1^i, j_1^{i-1}, m, e) = t(j_i\vert e_{a_i})$

パラメータの簡略化を行うことで， $P(J, a\vert E)$ とは以下の式で表される．

$\displaystyle P(J, a\vert E) = \frac{\epsilon}{(l+1)^m} \prod^m_{i=1} t(j_i\vert e_{a_i})$

(2.4)

$\begin{displaymath}\begin{split}P(J\vert E) &= \frac{\epsilon}{(l+1)^m} \sum^l_{... ...)^m} \prod^m_{i=1} \sum^l_{k=0} t(j_i\vert e_{a_i}) \end{split}\end{displaymath}$

(2.5)

モデル1では翻訳確率 $t(j\vert e$ )の初期値が0以外の場合， Expectation-Maximization（EM）アルゴリズムを繰り返し行うことで得られる期待値を用いて最適解を推定する．EMアルゴリズムの手順を以下に示す．

手順1

翻訳確率 $t(j\vert e)$ の初期値を設定する．

手順2

日英対訳対 $(J^{(s)}, E^{(s)})$ (但し， $1\leq s \leq S$ )において，日本語単語

と英語単語

が対応する回数の期待値を以下の式により計算する．

$\displaystyle c(j\vert e;J,E) = \frac{t(j\vert e)}{t(j\vert e_0) + \cdots + t(j\vert e_l)} \sum^m_{i=1} \delta(j, j_i) \sum^l_{k=0} \delta(e, e_k)$

(2.6)

$\delta(j, j_i)$ は日本語文中で日本語単語が出現する回数， $\delta(e, e_j)$ は英語文中で英語単語が出現する回数を表している．

手順3

英語文 $E^{(s)}$ の中で1回以上出現する英単語

に対して，翻訳確率 $t(j\vert e)$ を計算する．

定数 $\lambda_e$ を以下の式により計算する．

$\displaystyle \lambda_e = \sum_j \sum^S_{s=1} c(j\vert e; J^{(s)}, E^{(s)})$ (2.7)
式(2.6)より求めた $\lambda_e$ を用いて，翻訳確率 $t(j\vert e)$ を再計算する．

$\begin{displaymath}\begin{split}t(j\vert e) &= \lambda^{-1}_e \sum^S_{s=1} c(j\v... ...{\sum_j \sum^S_{s=1} c(j\vert e; J^{(s)}, E^{(s)})} \end{split}\end{displaymath}$ (2.8)

手順4

翻訳確率 $t(j\vert e)$ が収束するまで手順2と手順3を繰り返す．

次へ: モデル2 上へ: 翻訳モデル 戻る: IBMモデル目次

平成27年3月13日