また,対応付けられる英単語と仏単語は必ずしも近い位置にあるとは限らず,離れた位置にあることもある.この現象を歪みと呼ぶ.Model3ではこの2つの現象を想定し,次の3つのパラメータにより表される.
これに加え,英単語に翻訳されない仏単語の数を54#54 とし,その確率55#55 を2.16式で求める.歪み確率は1/54#54 !とし, 56#56 で55#55 と57#57 は0ではないとする.
58#58 | (2.16) |
以上によりModel3は2.17式のようになる.
26#26 | 3#3 | 59#59 | (2.17) |
3#3 | 60#60 |
Model3はModel1やModel2と異なり,効率的に計算を行うことができない.全ての単語対応を考慮すると莫大な計算量が必要となるため,期待値を近似によって求める.
対訳ペア中の全てのアライメントにおいて,最大となるアライメントをビタビアライメントと呼び, 61#61 とする.また,あるアライメントa中の,1つの仏単語fの対応先を別の英単語に移動させたことによって得られるアライメントa'の場合において,a'はaの近傍であると定義する.近傍の集合をN(a)で表す.
Model3では,aの近傍であるa'の確率を,aの確率から効率的に求めることができる.位置jにある仏単語の対応先を,位置iにある英単語からi'に変更したときのアライメントをa'とし,iとi'は0でなおとすると,2.18式が成り立つ.
62#62 | (2.18) |
63#63 はアライメントaにおける位置i'の単語の繁殖数であり,この単語のアライメントa'における繁殖数は 64#64 である.同様に,iもしくはi'が0であるとき,交換による近傍の場合についても計算することができる.
このことより,Model2において,最大確率となるアライメント 65#65 から,その近傍で確率最大となるアライメントを選択することで,Model3のビタビアライメントを近似することができる.また,Model2のビタビアライメントがある対応66#66 を固定した計算も加えることで,妥当な範囲で広く計算することができ,より確実性の高い推定を行うことができる.