(2.1)式は以下の式に分解することができる.9#9はフランス語文の長
さ, 10#10はフランス語文における, 1番目から11#11番目までのアラ
イメント, 12#12はフランス語文における, 1番目から11#11番目まで
単語を表している.
(2.2)式ではとても複雑であるので計算が困難である.そこで, モデル1
では以下の仮定により, パラメータの簡略化を行う.
- フランス語文の長さの確率14#14は9#9, 2#2に依存しない
- アライメントの確率は英語文の長さ16#16に依存する
- フランス語の翻訳確率
18#18は, 仏単語19#19に対応する英単語20#20に依存する
パラメータの簡略化を行うことで, 22#22と23#23は以下の式で表
される.
24#24 |
25#25 |
26#26 |
(3) |
27#27 |
25#25 |
28#28 |
(4) |
|
25#25 |
29#29 |
(5) |
モデル1では翻訳確率30#30の初期値が0以外の場合,
Expectation-Maximization(EM)アルゴリズムを繰り返し行うことで得られる期待
値を用いて最適解を推定する.EMアルゴリズムの手順を以下に示す.
- 手順1
- 翻訳確率30#30の初期値を設定する.
- 手順2
- 仏英対訳対
31#31(但し,
32#32)において, 仏単語6#6と英単語7#7が対応する回数の期待値を以下の式により計算する.
34#34はフランス語文1#1中で仏単語
6#6が出現する回数,
35#35は英語文2#2中で英単語7#7
が出現する回数を表している.
- 手順3
- 英語文36#36の中で1回以上出現する英単語7#7に対して, 翻訳確率30#30を計算する.
- 定数37#37を以下の式により計算する.
- (2.7)式より求めた37#37を用いて, 翻訳確率30#30を再計算する.
39#39 |
25#25 |
40#40 |
|
|
25#25 |
41#41 |
(8) |
- 手順4
- 翻訳確率30#30が収束するまで手順2と手順3を繰り返す.