次へ: モデル1
上へ: 翻訳モデル
戻る: 翻訳モデル
目次
統計翻訳における単語対応を得るための代表的なモデルとして,IBMのBrownらによる仏英翻訳モデル[5]がある.この翻訳モデルは,提案者のBrownらが全員IBM社員であったため,IBM翻訳モデルと呼ばれている.
IBM翻訳モデルは,原言語側から目的言語側への翻訳確率の近似方法が異なる,モデル1からモデル5までの5つのモデルで構成されている.各モデルの概要を以下に示す.
- モデル1
- 目的言語における,ある単語が原言語の単語に対応する確率のみを使用
- モデル2
- モデル1に加えて,目的言語における,ある単語に対応する原言語の単語の原言語文中での位置の確率(以下,permutation確率と呼ぶ)を使用
- モデル3
- モデル2に加えて,目的言語における,ある単語が原言語の何単語に対応するかの確率を使用
- モデル4
- モデル3におけるpermutation確率を改良(モデル2の絶対位置に対して,相対位置)
- モデル5
- モデル4におけるpermutation確率を更に改良
IBM翻訳モデルは,仏英翻訳を前提としている.しかし,本研究では日英翻訳を扱っているため,日英翻訳を前提に説明する.
原言語の日本語文を
,目的言語の英語文を
として定義する.IBM翻訳モデルにおいて,日本語文
と英語文
の翻訳モデル
を計算するため,アライメント
を用いる.以下にIBMモデルの基本的な計算式を示す.
|
|
|
(2.3) |
ここで,アライメント
は,日本語単語
と英単語
の対応を意味している.
IBM翻訳モデルにおいて,各日単語に対応する英単語は1つであるのに対して,各英単語に対応する日単語は0から
個あると仮定する.また,日単語と適切な英単語が対応しない場合,英語文の先頭に
という空単語があると仮定し,日単語と対応させる.
Subsections
平成25年2月12日