next up previous contents
次へ: フレーズテーブル作成法 上へ: 翻訳モデル 戻る: モデル5   目次

GIZA++

GIZA++[6]とは,統計翻訳に用いるための単語の確率値の計算を行うツールである.IBM翻訳モデルのモデル1からモデル5に基づいて,単語の対応関係の確率値を計算する. GIZA++を用いた場合,以下のファイルが出力される.
1. T TABLE (Translation Table)
T TABLEは,モデル1からモデル3により作成された翻訳確率 $ P(f\vert e)$ のデータである.$ f$ は翻訳する言語で,$ e$ は目的言語である.T TABLEは各行が,目的言語の単語ID($ e_id$ ),翻訳する言語の単語ID($ f_id$ ),翻訳する言語の単語から目的言語の単語へ翻訳する確率( $ P(f_id\vert e_id)$ )で構成される.
2. N TABLE (Fertility Table)
N TABLEは,目的言語の単語における繁殖数を表したデータである.N TABLEは各行が,目的言語の単語ID($ e_id$ ),繁殖数が0である確率($ p0$ ),繁殖数が1である確率($ p1$ ),…,繁殖数がnである確率($ pn$ )で構成される.



平成25年2月12日