next up previous contents
次へ: 言語モデル 上へ: 翻訳モデル 戻る: GIZA++   目次

フレーズテーブルの作成方法

GIZA++よりIBMモデルを推定することにより,最尤な単語アライメントを得る.これを日英・英日方向に対してそれぞれ行う.日本語文``風 で 松明 が 消え た''とその対訳英語文``The wind blew out the torch''を学習データとしたときの例として,日英方向の単語対応を表2.2に,英日方向の単語対応を表2.3に示す.また,表中の`` *''は対応点である.


表: 日英方向の単語対応
  The wind blew out the torch
  *        
    *      
松明           *
    *      
消え     *      
    *      


表: 英日方向の単語対応
  The wind blew out the torch
* *        
        *  
松明     * *   *
           
消え            
*          

次に,両方向のアライメントから,両方向に1対多の対応を認めた単語アライメントの計算をヒューリスティックなルールにより行う.ヒューリスティックとは,ヒトの日々の意思決定に類似した直感的かつ発見的な思考方法である. 基本のヒューリスティックとして, ``intersection(積集合)"と,``union(和集合)",``grow(成長)",そして``grow-diag"がある. grow, grow-diagはintersectionとunionの中間である.intersectionからスタートし,既に採用した対応点の周りにunionの対応点を加えていく.growでは縦と横の方向に,grow-diagでは縦と横と対角にunionの対応点がある場合に,その対応点を用いる.表2.4にintersectionの例を,表2.5にunionの例を,表2.6にgrowの例を,表6.6にgrow-diagの例を示す.なお,表中の○は,intersectionから追加された対応点を示す.


表: intersectionの例
  The wind blew out the torch
  *        
           
松明           *
           
消え            
           


表: unionの例
  The wind blew out the torch
* *        
    *   *  
松明     * *   *
    *      
消え     *      
*   *      


表: growの例
  The wind blew out the torch
*        
           
松明           *
           
消え            
           


表: grow-diagの例
  The wind blew out the torch
*        
       
松明           *
           
消え            
           

最後に,最終処理のヒューリスティックスとして,``final"と,``final-and"を用いる.finalは,少なくとも片方の言語の単語の単語対応がない場合に,unionの単語対応を追加する.また,final-andは,両側言語の単語の単語対応がない場合に,unionの候補対応点を追加する.表6.10にgrow-diag-finalの例を,表2.9にgrow-diag-final-andの例を示す.ここでの表中の○は,grow-diagから追加された対応点を示す.


表: grow-diag-finalの例
  The wind blew out the torch
* *        
    *   *  
松明         *
         
消え          
       


表: grow-diag-final-andの例
  The wind blew out the torch
* *        
    *   *  
松明         *
           
消え            
           

得られた単語アライメントから,全ての矛盾しないフレーズ対を得る.このとき,そのフレーズ対に対して翻訳確率を計算し,その確率値をフレーズ対に付与することで,フレーズテーブルを作成する.


next up previous contents
次へ: 言語モデル 上へ: 翻訳モデル 戻る: GIZA++   目次
s102025 平成27年3月9日