next up previous contents
次へ: model1 上へ: 日英統計翻訳システム 戻る: 翻訳モデル   目次

IBM翻訳モデル

統計翻訳における単語対応を得るための代表的なモデルとして,IBMのBrownらによる仏英翻訳モデル[6]がある.この翻訳モデルは,提案者のBrownらが全員IBM社員であったため,IBM翻訳モデルと呼ばれている. IBM翻訳モデルは,P$(F\vert E)$の近似方法の違いによって,model1からmodel5までの,順に複雑になる5つのモデルから構成されている.各モデルのおおまかな違いを以下に示す.
model1
目的言語における,ある単語が原言語の単語に対応する確率のみを用いる
model2
model1に加えて,目的言語における,ある単語に対応する原言語の単語の原言語文中での位置の確率(以下,permutation確率と呼ぶ)を用いる
model3
model2に加えて,目的言語における,ある単語が原言語の何単語に対応するかの確率を用いる
model4
model3におけるpermutation確率を改良して用いる(model2の絶対位置に対して,相対位置)
model5
model4におけるpermutation確率を更に改良して用いる

IBM翻訳モデルは,仏英翻訳を前提としている.しかし,本研究では日英翻訳を扱っているため,日英翻訳を前提に説明する. 原言語の日本語文を$J$,目的言語の英語文を$E$として定義する.IBM翻訳モデルにおいて,日本語文$J$と英語文$E$の翻訳モデル$P(J\vert E)$を計算するため,アライメント\(a\)を用いる.以下にIBMモデルの基本的な計算式を示す.


$\displaystyle P(J\vert E) = \sum_{a}P(J,a\vert E)$     (3)

ここで,アライメント$a$は,$J$$E$の単語の対応を意味している. IBM翻訳モデルにおいて,各日単語に対応する英単語は1つであるのに対して,各英単語に対応する日単語は0からn個あると仮定する.また,日単語と適切な英単語が対応しない場合,英語文の先頭に$e_{0}$という空単語があると仮定し,日単語と対応させる.



Subsections

平成23年3月3日