a).まず,GIZA++を用いて,学習文から日英,英日方向の最尤な単語アライメントを得る. 日本語文``風でろうそくが消えた"と,その対訳英語文``The wind blew out the candle"を例に挙げ, 図2.2と図2.4に日英方向の単語対応を示す.また,図2.3と図2.5に 英日方向の単語対応を示す.なお,図2.4と図2.5において,●は対応点を示す.
b).次に,両方向のアライメントから,両方向に1対多の対応を認めた単語アライメントをヒューリスティックスなルールにより計算する.ここで,ヒューリスティックスとは,人間の日々の意思決定に類似した直感的かつ発見的な思考方法である. 基本のヒューリスティックスとして,``intersection(積)"と,``union(和)",``grow(成長)",そして``grow-diag"がある. intersectionは,両方向共に存在する対応点のみを用いる. また,unionは,両方向の対応点を全て用いる.intersectionの例を図2.6に,unionの例を図2.8に示す.
c).そして,grow, grow-diagはintersectionとunionの中間である.intersectionからスタートし,既に採用した対応点の 周りにunionの対応点を加えていく.growでは縦と横の方向に,grow-diagでは縦と横と対角にunionの対応点がある場合に,その対応点を用いる.図2.8にgrowの例を,図2.9にgrow-diagの例を示す.なお,図2.8と2.9において,○は,intersectionから追加された対応点を示す.
d).最後に,最終処理のヒューリスティックスとして,``final"と,``final-and"を用いる.finalは, 少なくとも片方の言語の単語の単語対応がない場合に,unionの単語対応を追加する. また,final-andは,両側言語の単語の単語対応がない場合に,unionの候補対応点を追加する. 図2.10にgrow-diag-finalの例を,図2.11にgrow-diag-final-andの例を示す.ここでも,図2.10と2.11において,○は,grow-diagから追加された対応点を示す.
得られた単語アライメントから,全ての矛盾しないフレーズ対を得る.このとき,そのフレーズ対に対して翻訳確率を計算し,フレーズ対に確率値を付与することで,フレーズテーブルを作成する.