next up previous contents
次へ: 言語モデル 上へ: 統計翻訳システム 戻る: GIZA++   目次

フレーズテーブルの作成方法

GIZA++よりIBMモデルを推定することで最尤な単語アラインメントを得る. これを日英,英日の両方向に対して行う. 対訳文,``We ate all the apple pie''``私 たち は アップルパイ を 全部 食べ て しまっ た''を学習データとした時の例で日英方向の単語対応の例を表2.2に,英日方向の単語対応の例を表2.3に示す. また,表中の``■''は獲得した最尤な単語アラインメントを表す.


表: 日英方向の単語対応
  たち アップルパイ 全て 食べ しまっ
We                
ate              
all                
the                  
apple                    
pie                  


表: 英日方向の単語対応
  たち アップルパイ 全て 食べ しまっ
We                  
ate                  
all                  
the                  
apple                  
pie                  

次に,両方向のアラインメントから,両方向に1対多の対応を認めた単語アラインメントの計算を行う. この単語アラインメントは基本的に両方向の単語対応の積集合(intersection)と和集合(union)の中間をヒューリスティックで求める. なお,積集合は両方向ともに単語対応が存在する場合のみ対応を残し,和集合は少なくとも片方向に単語対応が存在する場合,単語対応を残す. 対称な単語対応を求めるヒューリスティック(grow-diag-finalなど)は,まず積集合から始まり,和集合にしかない単語対応が妥当であるかを判断しながら単語対応を徐々に加える. 対称化された単語アラインメントの獲得の例を表2.4(積集合 intersection),表2.5(和集合 union)表2.6(ヒューリスティック grow-diag-final)に示す.


表: 積集合 intersection
  たち アップルパイ 全て 食べ しまっ
We                  
ate                  
all                  
the                  
apple                    
pie                  


表: 和集合 union
  たち アップルパイ 全て 食べ しまっ
We                
ate              
all                
the                  
apple                  
pie                  


表: ヒューリスティック grow-diag-final
  たち アップルパイ 全て 食べ しまっ
We                
ate                  
all                  
the                  
apple                  
pie                  

対称化された単語アラインメントのうち,矛盾しないすべてのフレーズ対応を得る. 抽出したフレーズ対の例を表2.7に示す.


表: 作成されたフレーズ対の例
アップルパイ $\mid \mid \mid $ apple pie
アップルパイ を 全部 食べ て しまっ た $\mid \mid \mid $ ate all the apple pie
私 たち $\mid \mid \mid $ We
私 たち は $\mid \mid \mid $ We
全て $\mid \mid \mid $ all
食べ て しまっ た $\mid \mid \mid $ ate

抽出したフレーズ対応に対して確率付けを行う. 日本語フレーズ$J_{phrase}$と英語フレーズ$E_{phrase}$からなるフレーズ対応の確率は以下の式で計算される. また,フレーズ対に確率を付与し,作成されたフレーズテーブルの例を表2.8に示す.


$\displaystyle P(J_{phrase}\vert E_{phrase}) = \frac{学習データ中でJ_{phrase}とE_{phrase}が同時に出現した数}{学習データ中でE_{phrase}が出現した数}$     (2.3)
$\displaystyle P(E_{phrase}\vert J_{phrase}) = \frac{学習データ中でJ_{phrase}とE_{phrase}が同時に出現した数}{学習データ中でJ_{phrase}が出現した数}$     (2.4)


表: 作成されたフレーズテーブルの例
アップルパイ $\mid \mid \mid $ apple pie $\mid \mid \mid $ 1 1 1 1
アップルパイ を 全部 食べ て しまっ た $\mid \mid \mid $ ate all the apple pie $\mid \mid \mid $ 1 1 1 1
私 たち $\mid \mid \mid $ We $\mid \mid \mid $ 1 1 1 1
私 たち は $\mid \mid \mid $ We $\mid \mid \mid $ 1 1 1 1
全て $\mid \mid \mid $ all $\mid \mid \mid $ 1 1 1 1
食べ て しまっ た $\mid \mid \mid $ ate $\mid \mid \mid $ 1 1 1 1


next up previous contents
次へ: 言語モデル 上へ: 統計翻訳システム 戻る: GIZA++   目次
平成23年3月23日