まず,GIZA++[2]によりIBMモデルを推定することで最尤な単語 alignmentを得る.これを英日,日英の両方向に対して行う.尚, IBMモデルは単語を基本単位とした翻訳モデルである.
対訳文,``年 が 明け たら 成人 に なる 。'',
``i will come of age after the new year begins .''を学習データとしたとき
の例を表2.2(英日方向),表2.3(日英方向)に示す.
尚,表中の``■''が獲得した最尤な単語alignmentである.
次に,両方向のalignmentから,両方向に1対多の対応を認めた,単語alignment を計算する.この単語alignmentは基本的に両方向の単語対応の積集 合と和集合の中間をヒューリスティックスで求める.尚,積集合 (intersection)は,両方向ともに単語対応が存在する場合のみ単語 対応を残し,和集合(union)は,少なくとも片方向に単語対応が存在 する場合単語対応を残す.対称な単語対応を求めるヒューリスティッ クス(grow-diag-final等)は,まず積集合から始まり,和集合にしかない単語対応が妥当 であるかを判断しながら,単語対応を徐々に加える.対称化された 単語alignmentの獲得の例を,表2.4(intersection),表2.5(union), 表2.6(grow-diag-final)に示す.
grow-diag-finalは積集合から始まり,和集合にしかない単語対応が妥当であるかを判断しながら,単語対応を徐々に加える.
対称化された単語alignmentのうち矛盾しないすべてのフレーズ対応を得る. そのフレーズ対応に対して翻訳確率を計算し値を付与する.
作成されたフレーズテーブルを表2.5に示す.