next up previous contents
Next: intersection Up: 日英統計翻訳システム Previous: 句に基づく翻訳モデル   目次


フレーズテーブル作成法

IBMモデルは,方向のある1対多の単語アライメントである. よって,句レベルであるフレーズテーブルを得るには,両方向の1対多のアライメントを求める必要がある.

まず,GIZA++を用いて,学習文から日英方向と英日方向の対訳文において最尤な単語アライメントを得る. 例として,日本語文``風で火が消えた"と,その対訳英語文``The wind blew out the fire"を挙げる. 図[*]に日英方向の単語対応を示す.また,図[*]に英日方向の単語対応を示す. なお,図[*]と図[*]において,●は対応点を示す.

図: 日英方向の単語対応

図: 英日方向の単語対応

次に,両方向のアライメントから,両方向に1対多の対応を認めた単語アライメントをヒューリスティックスなルールにより計算する. 基本的なヒューリスティックスとして,``intersection",``union",``grow",そして``grow-diag"がある.



Subsections

s122019 2016-03-03