next up previous contents
次へ: フレーズテーブルの作成方法 上へ: 翻訳モデル 戻る: Model5   目次

GIZA++

GIZA++[5]とは,統計翻訳に用いるための単語の確率値を計算するツールである. IBMモデルのModel1〜5を用いて,翻訳する言語と目的言語における単語の対応関係の確率値を計算する.GIZA++を用いた場合,以下のファイルが出力される.
  1. T TABLE (Translation Table)
    T TABLEは,Model1からModel3により作成された翻訳確率$P(f\vert e)$のデータである.$f$は翻訳する言語で,$e$は目的言語である.T TABLEは各行が,目的言語の単語ID($e_id$),翻訳する言語の単語ID($f_id$),翻訳する言語の単語から目的言語の単語へ翻訳する確率($P(f_id\vert e_id)$)で構成される.
  2. N TABLE (Fertility Table)
    N TABLEは,目的言語の単語における繁殖数を表したデータである.N TABLEは各行が,目的言語の単語ID($e_id$),繁殖数が0である確率($p0$),繁殖数が1である確率($p1$),…,繁殖数がnである確率($pn$)で構成される.



s102025 平成27年3月9日