next up previous contents
次へ: 言語モデル 上へ: 翻訳モデル 戻る: IBMモデル   目次

フレーズテーブルの作成法

手順1最尤な単語alignmentの獲得

まず,GIZA++[4]によりIBMモデルを推定するこ とで最尤な単語alignmentを得る.これを英日,日英の 両方向に対して行う.なお,IBMモデルは単語を基本単 位とした翻訳モデルである.

対訳文,``言語はコミュニケ−ションの道具である.'', ``language is a means of communication.''を学習デー タとした時の例を表2.2(英日方向),表 2.3(日英方向)に示す.なお,表中の``■''が獲得した 最尤な単語alignmentである.

表 2.2: 最尤な単語alignmentの獲得の例(英日方向)
language
is
a
means
of
communication
言語
コミュニケ−ション
道具
ある


表 2.3: 最尤な単語alignmentの獲得の例(日英方向)
language
is
a
means
of
communication
言語
コミュニケ−ション
道具
ある

手順2 対称化された単語alignmentの計算

次に,両方向の alignmentから,両方向に1対多の対応を認めた,単語 alignmentを計算する.この単語alignmentは基本的に両 方向の単語対応の積集合と和集合の中間をヒューリス ティックスで求める.なお,積集合(intersection)は,両 方向ともに単語対応が存在する場合のみ対応を残し,和 集合(union)は,少なくとも片方向に単語対応が存在す る場合,単語対応を残す.対称な単語対応を求めるヒュー リスティックス(grow-diag-finalなど)は,まず積集合 から始まり,和集合にしかない単語対応が妥当であるか を判断しながら,単語対応を除々に加える.対称化され た単語alignmentの獲得の例を,表 2.4(intersection),表 2.5(union),表 2.6(grow-diag-final)に示す.


表 2.4: 最尤な単語alignmentの獲得の例(積集合:intersection)
language
is
a
means
of
communication
言語
コミュニケ−ション
道具
ある


2.4が示すように,intersectionは日英,英日の両方向ともに単語対応が存在する場合のみ単語対応を残す.


表 2.5: 最尤な単語alignmentの獲得の例(和集合:union)
language
is
a
means
of
communication
言語
コミュニケ−ション
道具
ある


2.5が示すようにunionは,少なくとも片方向に単語対応が存在する場合,単語対応を残す.


表 2.6: 最尤な単語alignmentの獲得の例(grow-diag-final)
language
is
a
means
of
communication
言語
コミュニケ−ション
道具
ある


2.6が示すようにgrow-daig-finalは,積集合から始まり,和集合にしかない単語対応が妥当である かを判断しながら,単語対応を除々に加える.
手順3 フレーズテーブルの抽出

対称化された単語alignment のうち矛盾しないすべてのフレーズ対応を得る.そのフ レーズに対して翻訳確率を計算し,値を付与する. 作成されたフレーズテーブルを表2.7に示す.


表 2.7: 作成されたフレーズテーブルの例(grow-diag-final)
言語 $\vert\vert\vert$ language $\vert\vert\vert$ 1 1 1 1
コミュニケ−ション $\vert\vert\vert$ communication $\vert\vert\vert$ 1 1 1 1
コミュニケーション の $\vert\vert\vert$ of communication $\vert\vert\vert$ 1 1 1 1
コミュニケーション の 道具 $\vert\vert\vert$ a means of communication $\vert\vert\vert$ 1 1 1 1
道具 $\vert\vert\vert$ a means $\vert\vert\vert$ 1 1 1 1
$\vert\vert\vert$ of $\vert\vert\vert$ 1 1 1 1
の 道具 $\vert\vert\vert$ a means of $\vert\vert\vert$ 1 1 1 1
言語 は コミュニケーション の 道具 で ある $\vert\vert\vert$ language is a means of communication $\vert\vert\vert$
1 0.0987654 1 9.28785e-05


next up previous contents
次へ: 言語モデル 上へ: 翻訳モデル 戻る: IBMモデル   目次
平成22年2月13日