次へ: model1
上へ: 日英統計翻訳システム
戻る: 翻訳モデル
目次
統計翻訳における単語対応を得るための代表的なモデルとして,IBMのBrownらによる仏英翻訳モデル[6]がある.この翻訳モデルは,提案者のBrownらが全員IBM社員であったため,IBM翻訳モデルと呼ばれている.
IBM翻訳モデルは,Pの近似方法の違いによって,model1からmodel5までの,順に複雑になる5つのモデルから構成されている.各モデルのおおまかな違いを以下に示す.
- model1
- 目的言語における,ある単語が原言語の単語に対応する確率のみを用いる
- model2
- model1に加えて,目的言語における,ある単語に対応する原言語の単語の原言語文中での位置の確率(以下,permutation確率と呼ぶ)を用いる
- model3
- model2に加えて,目的言語における,ある単語が原言語の何単語に対応するかの確率を用いる
- model4
- model3におけるpermutation確率を改良して用いる(model2の絶対位置に対して,相対位置)
- model5
- model4におけるpermutation確率を更に改良して用いる
IBM翻訳モデルは,仏英翻訳を前提としている.しかし,本研究では日英翻訳を扱っているため,日英翻訳を前提に説明する.
原言語の日本語文を,目的言語の英語文をとして定義する.IBM翻訳モデルにおいて,日本語文と英語文の翻訳モデルを計算するため,アライメントを用いる.以下にIBMモデルの基本的な計算式を示す.
|
|
|
(3) |
ここで,アライメントは,との単語の対応を意味している.
IBM翻訳モデルにおいて,各日単語に対応する英単語は1つであるのに対して,各英単語に対応する日単語は0からn個あると仮定する.また,日単語と適切な英単語が対応しない場合,英語文の先頭にという空単語があると仮定し,日単語と対応させる.
Subsections
平成23年3月3日