next up previous contents
次へ: 言語モデル 上へ: 翻訳モデル 戻る: GIZA++   目次

フレーズテーブル作成法

IBMモデルは,方向のある1対多の単語アライメントである.しかし,句に基づく統計翻訳においては 単語アライメントのみでは翻訳を行うことができない.したがって,句レベルのフレーズテーブル として両方向の1対多のアライメントを得る必要がある.以下にフレーズテーブル作成の手順を示す.

a).まず,GIZA++を用いて,学習文から日英,英日方向の最尤な単語アライメントを得る. 日本語文``風でろうそくが消えた"と,その対訳英語文``The wind blew out the candle"を例に挙げ, 図2.2と図2.4に日英方向の単語対応を示す.また,図2.3と図2.5に 英日方向の単語対応を示す.なお,図2.4と図2.5において,●は対応点を示す.

図: 日英方向の単語対応

\includegraphics[width=\hsize]{alignment-jp-en.eps}

図: 英日方向の単語対応

\includegraphics[width=\hsize]{alignment-en-jp.eps}

   

図: 日英方向の単語対応
\fbox{
\includegraphics[width=100mm]{jp-en.eps}
}

図: 英日方向の単語対応
\fbox{
\includegraphics[width=100mm]{en-jp.eps}
}

b).次に,両方向のアライメントから,両方向に1対多の対応を認めた単語アライメントをヒューリスティックスなルールにより計算する.ここで,ヒューリスティックスとは,人間の日々の意思決定に類似した直感的かつ発見的な思考方法である. 基本のヒューリスティックスとして,``intersection(積)"と,``union(和)",``grow(成長)",そして``grow-diag"がある. intersectionは,両方向共に存在する対応点のみを用いる. また,unionは,両方向の対応点を全て用いる.intersectionの例を図2.6に,unionの例を図2.8に示す.

図: intersectionの例
\fbox{
\includegraphics[width=100mm]{intersection.eps}
}

図: unionの例
\fbox{
\includegraphics[width=100mm]{union.eps}
}

c).そして,grow, grow-diagはintersectionとunionの中間である.intersectionからスタートし,既に採用した対応点の 周りにunionの対応点を加えていく.growでは縦と横の方向に,grow-diagでは縦と横と対角にunionの対応点がある場合に,その対応点を用いる.図2.8にgrowの例を,図2.9にgrow-diagの例を示す.なお,図2.82.9において,○は,intersectionから追加された対応点を示す.

図: growの例
\fbox{
\includegraphics[width=100mm]{grow.eps}
}

図: grow-diagの例
\fbox{
\includegraphics[width=100mm]{grow-diag.eps}
}

d).最後に,最終処理のヒューリスティックスとして,``final"と,``final-and"を用いる.finalは, 少なくとも片方の言語の単語の単語対応がない場合に,unionの単語対応を追加する. また,final-andは,両側言語の単語の単語対応がない場合に,unionの候補対応点を追加する. 図2.10にgrow-diag-finalの例を,図2.11にgrow-diag-final-andの例を示す.ここでも,図2.102.11において,○は,grow-diagから追加された対応点を示す.

図: grow-diag-finalの例
\fbox{
\includegraphics[width=100mm]{grow-diag-final.eps}
}

図: grow-diag-final-andの例
\fbox{
\includegraphics[width=100mm]{grow-diag-final-and.eps}
}

得られた単語アライメントから,全ての矛盾しないフレーズ対を得る.このとき,そのフレーズ対に対して翻訳確率を計算し,フレーズ対に確率値を付与することで,フレーズテーブルを作成する.


next up previous contents
次へ: 言語モデル 上へ: 翻訳モデル 戻る: GIZA++   目次
平成25年2月12日