next up previous contents
次へ: フレーズ対応の抽出 上へ: 翻訳モデル 戻る: GIZA++   目次

フレーズテーブルの作成法

手順1最尤な単語alignmentの獲得

まず,GIZA++によりIBM翻訳モデルを推定することで最尤な単語alignmentを得る.これを英日,日英の両方向に対して行う.なお,IBMモデルは単語を基本単位とした翻訳モデルである.対訳文,``言語はコミュニケ−ションの道具である.'',``language is a means of communication.''を学習文とした時の例を図2.3に示す.

図: 日英,英日方向の最尤な単語alignmentの例
73#73

手順2 対称化された単語alignmentの計算

次に,両方向のalignmentから,両方向に1対多の対応を認めた,単語alignmentを計算する.この単語alignmentは基本的に両方向の単語対応の積集合と和集合の中間をヒューリスティックスで求める.なお,積集合(intersection)は,両方向ともに単語対応が存在する場合のみ対応を残し,和集合(union)は,少なくとも片方向に単語対応が存在する場合,単語対応を残す.対称な単語対応を求めるヒューリスティックス(grow-diag-finalなど)は,まず積集合から始まり,和集合にしかない単語対応が妥当であるかを判断しながら,単語対応を除々に加える.対称化された単語alignmentの獲得の例を,図2.4(intersection),図2.5(union),図2.6(grow-diag),図2.7(grow-diag-final)に示す. 図2.4が示すように,intersectionは日英,英日の両方向ともに単語対応が存在する場合のみ単語対応を残す.
図: 最尤な単語alignmentの例(intersection)
74#74

2.5が示すようにunionは,少なくとも片方向に単語対応が存在する場合,単語対応を残す.

図: 最尤な単語alignmentの例(union)
75#75

2.6が示すようにgrow-diagは,intersectionの拡張である.grow-diagは,intersectionの対応点に加えて,片方向で対応点があり,かつ,intersectionの隣り合う点を両方向の対応点にする.

図: 最尤な単語alignmentの例(grow-diag)
76#76

2.7が示すようにgrow-daig-finalは,grow-diagの拡張である.grow-diag-finalは片方向で対応点があり,かつ,grow-diagにおいて,少なくとも片方の単語の対応なない点をgrow-diagに追加する.

図: 最尤な単語alignmentの例(grow-diag-final)
77#77

手順3 フレーズテーブルの抽出

対称化された単語alignmentのうち矛盾しないすべてのフレーズ対応を得る.そのフレーズに対して翻訳確率を計算し,値を付与する.作成されたフレーズテーブルを表2.2に示す.


表: 作成されたフレーズテーブルの例(grow-diag-final)
言語 12#12 language 12#12 1 1 1 1
コミュニケ−ション 12#12 communication 12#12 1 1 1 1
コミュニケーション の 12#12 of communication 12#12 1 1 1 1
コミュニケーション の 道具 12#12 a means of communication 12#12 1 1 1 1
道具 12#12 a means 12#12 1 1 1 1
の 12#12 of 12#12 1 1 1 1
の 道具 12#12 a means of 12#12 1 1 1 1
言語 は コミュニケーション の 道具 で ある 12#12 language is a means of communication 12#12
1 0.0987654 1 9.28785e-05


next up previous contents
次へ: フレーズ対応の抽出 上へ: 翻訳モデル 戻る: GIZA++   目次
平成24年3月23日