next up previous contents
次へ: Model4 上へ: IBM翻訳モデル 戻る: Model2   目次

Model3

Model1,Model2では,英単語と仏単語の対応は1対1の場合のみを想定していた.しかし,実際の翻訳では,複数の単語が1つの単語に翻訳されることや,翻訳先で省略されることがしばしば起こる.このような英単語が対応する仏単語の数を繁殖数と呼ぶ.

また,対応付けられる英単語と仏単語は必ずしも近い位置にあるとは限らず,離れた位置にあることもある.この現象を歪みと呼ぶ.Model3ではこの2つの現象を想定し,次の3つのパラメータにより表される.

これに加え,英単語に翻訳されない仏単語の数を54#54 とし,その確率55#55 を2.16式で求める.歪み確率は1/54#54 !とし, 56#56 で55#55 と57#57 は0ではないとする.


58#58     (2.16)

以上によりModel3は2.17式のようになる.


26#26 3#3 59#59 (2.17)
  3#3 60#60  

Model3はModel1やModel2と異なり,効率的に計算を行うことができない.全ての単語対応を考慮すると莫大な計算量が必要となるため,期待値を近似によって求める.

対訳ペア中の全てのアライメントにおいて,最大となるアライメントをビタビアライメントと呼び, 61#61 とする.また,あるアライメントa中の,1つの仏単語fの対応先を別の英単語に移動させたことによって得られるアライメントa'の場合において,a'aの近傍であると定義する.近傍の集合をN(a)で表す.

Model3では,aの近傍であるa'の確率を,aの確率から効率的に求めることができる.位置jにある仏単語の対応先を,位置iにある英単語からi'に変更したときのアライメントをa'とし,ii'は0でなおとすると,2.18式が成り立つ.


62#62     (2.18)

63#63 はアライメントaにおける位置i'の単語の繁殖数であり,この単語のアライメントa'における繁殖数は 64#64 である.同様に,iもしくはi'が0であるとき,交換による近傍の場合についても計算することができる.

このことより,Model2において,最大確率となるアライメント 65#65 から,その近傍で確率最大となるアライメントを選択することで,Model3のビタビアライメントを近似することができる.また,Model2のビタビアライメントがある対応66#66 を固定した計算も加えることで,妥当な範囲で広く計算することができ,より確実性の高い推定を行うことができる.



平成24年3月23日