next up previous
次へ: 言語モデル 上へ: 統計翻訳システム 戻る: 翻訳モデル

フレーズテーブルの作成法

句に基づく翻訳モデルは,原言語の単語列から目的言語の単語列の翻訳に対し て確率を付与する.これをフレーズテーブルで管理する.以下に作成手順につ いて説明する.

手順1
単語alignmentの計算(日英,英日)

まず,IBMモデル[1]を利用することで,単語alignmentを得る.これを 英日,日英の両方向に対して行う.つまり,学習データに対して,英日方向の 単語alignmentと日英方向の単語alignmentを計算する.このtoolとして GIZA++[5]が用いられる.

手順2
単語列alignmentの計算 (union と intersection)

次に,英日・日英両方向の単語alignmentから,英日・日英両方向に1対多の対 応を認めた単語列alignmentを求める.この単語列alignmentは英日・日英両方 向の単語対応の積集合(intersection)と和集合(union)を利用してヒューリス ティックスで求める[6].尚,積集合(intersection)は,両方向ともに 単語alignmentが存在する場合のみ単語列alignmentを残し,和集合(union)は, 少なくとも片方向に単語alignmentが存在する場合に単語列alignmentを残す. 対称な単語列対応を求めるヒューリスティックス(grow-diag-final)は,まず積 集合から始まり,和集合にしかない単語対応が妥当であるかを判断しながら, 単語対応を徐々に加える[7].なお通常の統計翻訳では, grow-diag-finalが利用されている.

手順3
フレーズテーブルの抽出

単語列alignmentから,ヒューリステックを用いて日本語単語列と英語単語列の フレーズ対を得る.そのフレーズ対に対して翻訳確率を計算してフレーズテー ブルを作成する.表[*]を学習データとしたとき, grow-diag-finalで作成されたフレーズテーブルを表[*]に示す.また,intersectionで作成され たフレーズテーブルを表[*]に示す.


表: 対訳文の例
日本語  ``年 が 明け たら 成人 に なる 。''
英語  ``i will come of age after the new year begins .''


表: grow-diag-finalで作成されたフレーズテーブル(全12フレーズ)
\scalebox{1}{
{\tabcolsep=0.5cm
\begin{tabular}{l}
\hline \hline
が $\vert\vert\...
...t\vert$\ age after $\vert\vert\vert$\ 1 1 1 1
\\ \hline \hline
\end{tabular}}
}



表: intersectionで作成したフレーズテーブルの例 (全185フレーズから一部抜粋)
=0.6cm \scalebox{0.9}{
\begin{tabular}{l} \hline \hline
年 が 明け たら 成人 に $\vert\...
...rt\vert\vert$\ 0.0666667 0.0277778 0.1 0.111111
\\ \hline \hline
\end{tabular}}


パラメータintersectionで作成したフレーズテーブルは,多くのフレーズ対を 持ち,かつ長いフレーズ対を含むことが分かる.



Jin'ichi Murakami 平成22年9月2日