(2.1)式は以下の式に分解することができる.12#12はフランス語文の長
さ,13#13はフランス語文における,1番目から14#14番目までのアラ
イメント,15#15はフランス語文における,1番目から14#14番目まで
単語を表している.
(2.2)式ではとても複雑であるので計算が困難である.そこで,モデル1
では以下の仮定により,パラメータの簡略化を行う.
- フランス語文の長さの確率17#17は12#12, 5#5に依存しない
- アライメントの確率は英語文の長さ19#19に依存する
- フランス語の翻訳確率
21#21は,仏単語22#22に対応する英単語23#23に依存する
パラメータの簡略化を行うことで,25#25と26#26は以下の式で表
される.
27#27 |
28#28 |
29#29 |
(2.3) |
30#30 |
28#28 |
31#31 |
(2.4) |
|
28#28 |
32#32 |
(2.5) |
モデル1では翻訳確率33#33の初期値が0以外の場合,
Expectation-Maximization(EM)アルゴリズムを繰り返し行うことで得られる期待
値を用いて最適解を推定する.EMアルゴリズムの手順を以下に示す.
- 手順1
- 翻訳確率33#33の初期値を設定する.
- 手順2
- 仏英対訳対
34#34(但し,
35#35)において,仏単語9#9と英単語10#10が対応する回数の期待値を以下の式により計算する.
37#37はフランス語文4#4中で仏単語
9#9が出現する回数,
38#38は英語文5#5中で英単語10#10
が出現する回数を表している.
- 手順3
- 英語文39#39の中で1回以上出現する英単語10#10に対して,翻訳確率33#33を計算する.
- 定数40#40を以下の式により計算する.
- (2.7)式より求めた40#40を用いて,翻訳確率33#33を再計算する.
42#42 |
28#28 |
43#43 |
|
|
28#28 |
44#44 |
(2.8) |
- 手順4
- 翻訳確率33#33が収束するまで手順2と手順3を繰り返す.