next up previous contents
次へ: 言語モデル 上へ: 日英統計翻訳システム 戻る: GIZA++   目次

フレーズテーブル作成法

IBMモデルは,方向のある1対多の単語アライメントである. よって,句レベルであるフレーズテーブルを得るには,両方向の1対多のアライメントを求める必要がある.

まず,GIZA++を用いて,学習文から日英,英日方向の最尤な単語アライメントを得る. 日本語文``風でろうそくが消えた"と,その対訳英語文``The wind blew out the candle"を例に挙げ, 図2と図4に日英方向の単語対応を示す.また,図3と図5に 英日方向の単語対応を示す.なお,図4と図5において,●は対応点を示す.

図: 日英方向の単語対応

\includegraphics[width=\hsize]{alignment-jp-en.eps}

図: 英日方向の単語対応

\includegraphics[width=\hsize]{alignment-en-jp.eps}

   

図: 日英方向の単語対応
\fbox{
\includegraphics[width=100mm]{jp-en.eps}
}

図: 英日方向の単語対応
\fbox{
\includegraphics[width=100mm]{en-jp.eps}
}

次に,両方向のアライメントから,両方向に1対多の対応を認めた単語アライメントをヒューリスティックスなルールにより計算する.ここで,ヒューリスティックスとは,人間の日々の意思決定に類似した直感的かつ発見的な思考方法である. 基本のヒューリスティックスとして,``intersection(積)"と,``union(和)",``grow(成長)",そして``grow-diag"がある. intersectionは,両方向共に存在する対応点のみを用いる. また,unionは,両方向の対応点を全て用いる.intersectionの例を図6に,unionの例を図7に示す.

図: intersectionの例
\fbox{
\includegraphics[width=100mm]{intersection.eps}
}

図: unionの例
\fbox{
\includegraphics[width=100mm]{union.eps}
}

そして,grow, grow-diagはintersectionとunionの中間である.intersectionからスタートし,既に採用した対応点の 周りにunionの対応点を加えていく.growでは縦と横の方向に,grow-diagでは縦と横と対角にunionの対応点がある場合に,その対応点を用いる.図8にgrowの例を,図9にgrow-diagの例を示す.なお,図89において,○は,intersectionから追加された対応点を示す.

図: growの例
\fbox{
\includegraphics[width=100mm]{grow.eps}
}

図: grow-diagの例
\fbox{
\includegraphics[width=100mm]{grow-diag.eps}
}

最後に,最終処理のヒューリスティックスとして,``final"と,``final-and"を用いる.finalは, 少なくとも片方の言語の単語の単語対応がない場合に,unionの単語対応を追加する. また,final-andは,両側言語の単語の単語対応がない場合に,unionの候補対応点を追加する. 図10にgrow-diag-finalの例を,図11にgrow-diag-final-andの例を示す.ここでも,図1011において,○は,grow-diagから追加された対応点を示す.

図: grow-diag-finalの例
\fbox{
\includegraphics[width=100mm]{grow-diag-final.eps}
}

図: grow-diag-final-andの例
\fbox{
\includegraphics[width=100mm]{grow-diag-final-and.eps}
}

得られた単語アライメントから,全ての矛盾しないフレーズ対を得る.このとき,そのフレーズ対に対して翻訳確率を計算し,フレーズ対に確率値を付与することで,フレーズテーブルを作成する.


next up previous contents
次へ: 言語モデル 上へ: 日英統計翻訳システム 戻る: GIZA++   目次
平成23年3月3日