次へ: 言語モデル
上へ: 翻訳モデル
戻る: GIZA++
目次
GIZA++よりIBMモデルを推定することで最尤な単語アラインメントを得る.
これを日英,英日の両方向に対して行う.
対訳文,``We ate all the apple pie''``私 たち は アップルパイ を 全部 食べ て しまっ た''を学習データとした時の例で日英方向の単語対応の例を表に,英日方向の単語対応の例を表に示す.
また,表中の``■''は獲得した最尤な単語アラインメントを表す.
表:
日英方向の単語対応
|
私 |
たち |
は |
アップルパイ |
を |
全て |
食べ |
て |
しまっ |
た |
We |
■ |
■ |
|
|
|
|
|
|
|
|
ate |
|
|
|
|
|
|
■ |
|
■ |
■ |
all |
|
|
|
|
|
■ |
|
■ |
|
|
the |
|
|
|
|
■ |
|
|
|
|
|
apple |
|
|
|
|
|
|
|
|
|
|
pie |
|
|
|
■ |
|
|
|
|
|
|
表:
英日方向の単語対応
|
私 |
たち |
は |
アップルパイ |
を |
全て |
食べ |
て |
しまっ |
た |
We |
|
■ |
|
|
|
|
|
|
|
|
ate |
|
|
|
|
|
|
■ |
|
|
|
all |
|
|
|
|
|
■ |
|
|
|
|
the |
|
|
|
|
■ |
|
|
|
|
|
apple |
|
|
|
■ |
|
|
|
|
|
|
pie |
|
|
|
■ |
|
|
|
|
|
|
次に,両方向のアラインメントから,両方向に1対多の対応を認めた単語アラインメントの計算を行う.
この単語アラインメントは基本的に両方向の単語対応の積集合(intersection)と和集合(union)の中間をヒューリスティックで求める.
なお,積集合は両方向ともに単語対応が存在する場合のみ対応を残し,和集合は少なくとも片方向に単語対応が存在する場合,単語対応を残す.
対称な単語対応を求めるヒューリスティック(grow-diag-finalなど)は,まず積集合から始まり,和集合にしかない単語対応が妥当であるかを判断しながら単語対応を徐々に加える.
対称化された単語アラインメントの獲得の例として,表に(積集合 intersection)を,表に(和集合 union)を,表に(ヒューリスティック grow-diag-final)を示す.
表:
積集合 intersection
|
私 |
たち |
は |
アップルパイ |
を |
全て |
食べ |
て |
しまっ |
た |
We |
|
■ |
|
|
|
|
|
|
|
|
ate |
|
|
|
|
|
|
■ |
|
|
|
all |
|
|
|
|
|
■ |
|
|
|
|
the |
|
|
|
|
■ |
|
|
|
|
|
apple |
|
|
|
|
|
|
|
|
|
|
pie |
|
|
|
■ |
|
|
|
|
|
|
表:
和集合 union
|
私 |
たち |
は |
アップルパイ |
を |
全て |
食べ |
て |
しまっ |
た |
We |
■ |
■ |
|
|
|
|
|
|
|
|
ate |
|
|
|
|
|
|
■ |
|
■ |
■ |
all |
|
|
|
|
|
■ |
|
■ |
|
|
the |
|
|
|
|
■ |
|
|
|
|
|
apple |
|
|
|
■ |
|
|
|
|
|
|
pie |
|
|
|
■ |
|
|
|
|
|
|
表:
ヒューリスティック grow-diag-final
|
私 |
たち |
は |
アップルパイ |
を |
全て |
食べ |
て |
しまっ |
た |
We |
■ |
■ |
|
|
|
|
|
|
|
|
ate |
|
|
|
|
|
|
■ |
|
|
|
all |
|
|
|
|
|
■ |
|
|
|
|
the |
|
|
|
|
■ |
|
|
|
|
|
apple |
|
|
|
■ |
|
|
|
|
|
|
pie |
|
|
|
■ |
|
|
|
|
|
|
対称化された単語アラインメントのうち,矛盾しないすべてのフレーズ対応を得る.
抽出したフレーズ対の例を表に示す.
表:
作成されたフレーズ対の例
日本語フレーズ |
英語フレーズ |
アップルパイ |
apple pie |
アップルパイ を 全部 食べ て しまっ た |
ate all the apple pie |
私 たち |
We |
私 たち は |
We |
全て |
all |
食べ て しまっ た |
ate |
抽出したフレーズ対応に対して確率付けを行う.
日本語フレーズと英語フレーズからなるフレーズ対応の確率は以下の式で計算される.
また,フレーズ対に確率を付与し,作成されたフレーズテーブルの例を表に示す.
|
|
|
(2.3) |
|
|
|
(2.4) |
次へ: 言語モデル
上へ: 翻訳モデル
戻る: GIZA++
目次
平成25年2月12日