Next: 句に基づく翻訳モデル Up: 日英統計翻訳 Previous: 言語モデル目次

IBM翻訳モデル

統計翻訳における単語対応を獲得するための代表的なモデルとして，IBMのBrownらによる仏英翻訳モデル[6]がある．IBM翻訳モデルは仏英翻訳を前提としているが，本研究では日英翻訳を扱っているため，日英翻訳を前提に説明する．ここで，原言語の日本語文を

，目的言語の英語文を

として定義する．また，IBM翻訳モデルにおいて，日本語文

と英語文

の翻訳モデル $P(J\vert E)$ を計算するため，アライメント $a$ を用いる．以下にIBMモデルの基本的な計算式を示す．

$\displaystyle P(J\vert E) = \sum_{a}P(J,a\vert E)$

(2.7)

ここで，アライメントは，との単語の対応を意味している．IBM翻訳モデルにおいて，各日単語に対応する英単語は1つであるのに対して，各英単語に対応する日単語は0からn個あると仮定する．また，日単語と適切な英単語が対応しない場合，英語文の先頭に $e_{0}$ という空単語があると仮定し，日単語と対応させる．

また，IBM翻訳モデルは，Model1からModel5までの5つのモデルから構成されている．各モデルの概要を以下に示す．

Model1: 目的言語のある単語が原言語の単語に訳される確率を用いる
Model2: Model1に加えて，目的言語のある単語に対応する原言語の単語の原言語文中
での位置の確率（以下，permutation確率と呼ぶ）を用いる（絶対位置）
Model3: Model2に加えて，目的言語のある単語が原言語の何単語に対応するかの確率
を用いる
Model4: Model3のpermutation確率を改良（相対位置）
Model5: Model4のpermutation確率を更に改良

s122019 2018-02-15