GIZA++

GIZA++[#!bib:giza!#]は,対訳文から対訳単語と単語翻訳確率を自動的に得ることができる. 単語翻訳確率とは,原言語と目的語における単語の対応関係(Word Alignment)の確率である. 単語翻訳確率をIBM Model1〜5を用いて計算する. GIZA++を用いることで,以下のファイルを得る.
1.
T TABLE(Translation Table)
T TABLEは,IBM Model1〜3により作成された翻訳確率4#4のデータである. 7#7は原言語で,8#8は目的言語である. T TABLEは各行が,目的言語の単語ID(9#9),原言語の単語ID(10#10), 原言語の単語から目的言語の単語へ翻訳する確率( 11#11)で構成される.
2.
N TABLE(Fertility Table)
N TABLEは,目的言語の単語における繁殖数を表したデータである. N TABLEは各行が,目的言語の単語ID(9#9),繁殖数が0である確率(12#12),繁殖数が1である確率(13#13),…, 繁殖数がnである確率(14#14)で構成される.