Next: 中村らの研究[2]
Up: 従来手法
Previous: HMM
目次
GIZA++の概要を以下に示す.以下,川原[7]の論文を参照して記述している.GIZA++[6]とは,日英方向と英日方向の対訳文から最尤な単語対応を得るための計算を行うツールである.
IBM翻訳モデルのModel1からModel5に基づいて,単語の対応関係の確率値を計算する.
GIZA++を用いた場合,以下の2つのファイルが出力される.
- 1. T TABLE (Translation Table)
- T TABLEは,Model1からModel3により作成された翻訳確率
のデータである.
は翻訳する言語で,
は目的言語である.T TABLEは各行が,目的言語の単語ID(
),翻訳する言語の単語ID(
),翻訳する言語の単語から目的言語の単語へ翻訳する確率(
)で構成される.
- 2. N TABLE (Fertility Table)
- N TABLEは,目的言語の単語における繁殖数を表したデータである.N TABLEは各行が,目的言語の単語ID(
),繁殖数が0である確率(
),繁殖数が1である確率(
),…,繁殖数がnである確率(
)で構成される.
2019-03-08