IBM翻訳モデル

Next: GIZA++ Up: 翻訳モデル Previous: 翻訳モデル Contents

IBM翻訳モデル

統計翻訳における単語対応を獲得するための代表的なモデルとして，IBMのBrownらによる仏英翻訳モデル[8]がある．IBM翻訳モデルは仏英翻訳を前提としているが，本研究では日英翻訳を扱っているため，日英翻訳を前提に説明する．ここで，原言語の日本語文を29#29，目的言語の英語文を30#30として定義する．また，IBM翻訳モデルにおいて，日本語文29#29と英語文30#30の翻訳モデル31#31を計算するため，アライメント32#32を用いる．以下にIBMモデルの基本的な計算式を示す．

33#33

(7)

ここで，アライメント34#34は，29#29と30#30の単語の対応を意味している．IBM翻訳モデルにおいて，各日単語に対応する英単語は1つであるのに対して，各英単語に対応する日単語は0からn個あると仮定する．また，日単語と適切な英単語が対応しない場合，英語文の先頭に35#35という空単語があると仮定し，日単語と対応させる．

また，IBM翻訳モデルは，Model1からModel5までの5つのモデルから構成されている．各モデルの概要を以下に示す．

Model1: 目的言語のある単語が原言語の単語に訳される確率を用いる
Model2: Model1に加えて，目的言語のある単語に対応する原言語の単語の原言語文中
での位置の確率（以下，permutation確率と呼ぶ）を用いる（絶対位置）
Model3: Model2に加えて，目的言語のある単語が原言語の何単語に対応するかの確率
を用いる
Model4: Model3のpermutation確率を改良（相対位置）
Model5: Model4のpermutation確率を更に改良

Hiroto Yasuba 2019-05-08