GIZA++[#!bib:giza!#]は,対訳文から対訳単語と単語翻訳確率を自動的に得ることができる.
単語翻訳確率とは,原言語と目的語における単語の対応関係(Word Alignment)の確率である.
単語翻訳確率をIBM Model1〜5を用いて計算する.
GIZA++を用いることで,以下のファイルを得る.
- 1.
- T TABLE(Translation Table)
T TABLEは,IBM Model1〜3により作成された翻訳確率4#4のデータである.
7#7は原言語で,8#8は目的言語である.
T TABLEは各行が,目的言語の単語ID(9#9),原言語の単語ID(10#10),
原言語の単語から目的言語の単語へ翻訳する確率(
11#11)で構成される.
- 2.
- N TABLE(Fertility Table)
N TABLEは,目的言語の単語における繁殖数を表したデータである.
N TABLEは各行が,目的言語の単語ID(9#9),繁殖数が0である確率(12#12),繁殖数が1である確率(13#13),…,
繁殖数がnである確率(14#14)で構成される.