(2.1)式は以下の式に分解することができる.10#10はフランス語文の長
さ,11#11はフランス語文における,1番目から12#12番目までのアラ
イメント,13#13はフランス語文における,1番目から12#12番目まで
単語を表している.
(2.2)式ではとても複雑であるので計算が困難である.そこで,モデル1
では以下の仮定により,パラメータの簡略化を行う.
- フランス語文の長さの確率15#15は10#10, 3#3に依存しない
- アライメントの確率は英語文の長さ17#17に依存する
- フランス語の翻訳確率
19#19は,仏単語20#20に対応する英単語21#21に依存する
パラメータの簡略化を行うことで,23#23と24#24は以下の式で表
される.
25#25 |
26#26 |
27#27 |
(3) |
28#28 |
26#26 |
29#29 |
(4) |
|
26#26 |
30#30 |
(5) |
モデル1では翻訳確率31#31の初期値が0以外の場合,
Expectation-Maximization(EM)アルゴリズムを繰り返し行うことで得られる期待
値を用いて最適解を推定する.EMアルゴリズムの手順を以下に示す.
- 手順1
- 翻訳確率31#31の初期値を設定する.
- 手順2
- 仏英対訳対
32#32(但し,
33#33)において,仏単語7#7と英単語8#8が対応する回数の期待値を以下の式により計算する.
35#35はフランス語文2#2中で仏単語
7#7が出現する回数,
36#36は英語文3#3中で英単語8#8
が出現する回数を表している.
- 手順3
- 英語文37#37の中で1回以上出現する英単語8#8に対して,翻訳確率31#31を計算する.
- 定数38#38を以下の式により計算する.
- (2.7)式より求めた38#38を用いて,翻訳確率31#31を再計算する.
40#40 |
26#26 |
41#41 |
|
|
26#26 |
42#42 |
(8) |
- 手順4
- 翻訳確率31#31が収束するまで手順2と手順3を繰り返す.