next up previous contents
次へ: GIZA++ 上へ: 単語に基づく統計翻訳 戻る: 単語に基づく統計翻訳の概要   目次

IBM翻訳モデル

単語に基づく統計翻訳には,IBM社のBrownら[7]によって提案されたIBM翻訳モデルが用いられる. IBM翻訳モデルは,Model1からModel5までの5つから構成され,順に複雑な計算を行う. 仏英翻訳で使用することを想定しているため,本節では,仏英翻訳を前提に説明を行う. IBM翻訳モデルでは,フランス語文$F$と英語文$E$の翻訳モデル$P(f\big\vert e)$を計算するために,アライメント$a$を用いる. IBM翻訳モデルの基本式を以下に示す.
$\displaystyle P(f \mid e)$ $\textstyle =$ $\displaystyle \sum_{\it a} P(f,a \mid e)$  

アライメント$a$は,仏単語$F$と英単語$E$の対応関係を意味する. IBM翻訳モデルでは,英単語は1:nの対応を持ち,仏単語は1:1の対応を持つと仮定する. また,仏単語に適切な対応関係を持つ英単語が存在しないときには, その仏単語と英語文の先頭の特殊文字$ e_0$を対応させる.



平成25年2月13日