句に基づく翻訳モデルは,原言語の単語列から目的言語の単語列の翻訳に対し て確率を付与する.これをフレーズテーブルで管理する.以下に作成手順につ いて説明する.
まず,IBMモデル[1]を利用することで,単語alignmentを得る.これを 英日,日英の両方向に対して行う.つまり,学習データに対して,英日方向の 単語alignmentと日英方向の単語alignmentを計算する.このtoolとして GIZA++[5]が用いられる.
次に,英日・日英両方向の単語alignmentから,英日・日英両方向に1対多の対 応を認めた単語列alignmentを求める.この単語列alignmentは英日・日英両方 向の単語対応の積集合(intersection)と和集合(union)を利用してヒューリス ティックスで求める[6].尚,積集合(intersection)は,両方向ともに 単語alignmentが存在する場合のみ単語列alignmentを残し,和集合(union)は, 少なくとも片方向に単語alignmentが存在する場合に単語列alignmentを残す. 対称な単語列対応を求めるヒューリスティックス(grow-diag-final)は,まず積 集合から始まり,和集合にしかない単語対応が妥当であるかを判断しながら, 単語対応を徐々に加える[7].なお通常の統計翻訳では, grow-diag-finalが利用されている.
単語列alignmentから,ヒューリステックを用いて日本語単語列と英語単語列の フレーズ対を得る.そのフレーズ対に対して翻訳確率を計算してフレーズテー ブルを作成する.表を学習データとしたとき, grow-diag-finalで作成されたフレーズテーブルを表に示す.また,intersectionで作成され たフレーズテーブルを表に示す.
パラメータintersectionで作成したフレーズテーブルは,多くのフレーズ対を 持ち,かつ長いフレーズ対を含むことが分かる.