フレーズテーブル作成法

まず,GIZA++を用いて学習文から英日,日英方向の双方向で最尤な単語アライメントを得る.英日方向の単語対応の例を表2.3,日英方向の単語対応の例を表2.4に示す.また,●は単語が対応した箇所を示す.


表: 日英方向の単語対応
  He went to kyoto on business
         
         
仕事          
         
京都          
       
行っ          
         


表: 英日方向の単語対応
  He went to kyoto on business
         
           
仕事          
         
京都          
           
行っ          
           

次に,得られた双方向の単語アライメントを用いて,複数単語のアライメントを得る.このアライメントは双方向の単語対応の和集合と積集合から求める.ヒューリスティックスとして双方向ともに対応する単語対応を用いる“intersection”,双方向のどちらか一方でも対応する単語対応を全て用いる“union”がある.表2.3と表2.4を用いた“intersection”の例を表2.5,に“union”の例を表2.6に示す.

表: intersectionの例
  He went to kyoto on business
         
           
仕事          
         
京都          
           
行っ          
           


表: unionの例
  He went to kyoto on business
         
         
仕事          
         
京都          
       
行っ          
         

また“intersection”と“union”の中間のヒューリスティックスとして“grow”と“grow-diag”がある.これら2つのヒューリスティックスでは“intersection”の単語対応と“union”の単語対応を用いる.“grow”は縦横方向,“grow-diag”は縦横対角方向に,“intersection”の単語対応から“union”の単語対応が存在する場合にその単語対応も用いる.“grow-diag”の例を表2.7に示す.


表: grow-diagの例
  He went to kyoto on business
         
           
仕事          
         
京都          
       
行っ          
         

“grow-diag”の最後に行う処理として“final”と“final-and”がある.“final”は少なくとも片方の言語の単語対応がない場合に,“union”の単語対応を追加する.また,“final-and”は,両側言語の単語対応がない場合に,“union”の候補対応点を追加する.“grow-diag-final-and”の例を表2.8に示す.


表: grow-diag-final-andの例
  He went to kyoto on business
         
         
仕事          
         
京都          
       
行っ          
         

得られた単語アライメントから,全ての矛盾しないフレーズ対を得る.このとき,そのフレーズ対に対して翻訳確率を計算し,フレーズ対に確率値を付与することでフレーズテーブルを作成する.