次に,両方向のアラインメントから,両方向に1対多の対応を認めた単語アラインメントの計算を行う.
この単語アラインメントは基本的に両方向の単語対応の積集合(intersection)と和集合(union)の中間をヒューリスティックで求める.
なお,積集合は両方向ともに単語対応が存在する場合のみ対応を残し,和集合は少なくとも片方向に単語対応が存在する場合,単語対応を残す.
対称な単語対応を求めるヒューリスティック(grow-diag-finalなど)は,まず積集合から始まり,和集合にしかない単語対応が妥当であるかを判断しながら単語対応を徐々に加える.
対称化された単語アラインメントの獲得の例として,表に(積集合 intersection)を,表
に(和集合 union)を,表
に(ヒューリスティック grow-diag-final)を示す.
対称化された単語アラインメントのうち,矛盾しないすべてのフレーズ対応を得る.
抽出したフレーズ対の例を表に示す.
日本語フレーズ | 英語フレーズ |
アップルパイ | apple pie |
アップルパイ を 全部 食べ て しまっ た | ate all the apple pie |
私 たち | We |
私 たち は | We |
全て | all |
食べ て しまっ た | ate |
抽出したフレーズ対応に対して確率付けを行う.
日本語フレーズと英語フレーズ
からなるフレーズ対応の確率は以下の式で計算される.
また,フレーズ対に確率を付与し,作成されたフレーズテーブルの例を表
に示す.
![]() |
(2.3) | ||
![]() |
(2.4) |