Next: GIZA++
Up: 単語に基づく統計翻訳
Previous: 単語に基づく統計翻訳
目次
IBM翻訳モデルは, 単語に基づく統計翻訳を想定して作成された単語対応の確率モデルである. 統計翻訳における単語対応を得るための代表的なモデルとして, IBMのBrownらによる仏英翻訳モデル[4]がある. IBM翻訳モデルは,4#4の近似方法の違いによって,model1からmodel5までの,順に複雑になる5つのモデルから構成されている.各モデルのおおまかな違いを以下に示す.
- model1
- 目的言語における,ある単語が原言語の単語に対応する確率のみを用いる
- model2
- model1に加えて,目的言語における,ある単語に対応する原言語の単語の原言語文中での位置の確率(以下,permutation確率と呼ぶ)を用いる
- model3
- model2に加えて,目的言語における,ある単語が原言語の何単語に対応するかの確率を用いる
- model4
- model3におけるpermutation確率を改良して用いる(model2の絶対位置に対して,相対位置)
- model5
- model4におけるpermutation確率を更に改良して用いる
IBM翻訳モデルは,仏英翻訳を前提としている. しかし,本研究では日英翻訳を扱っているため,本論文では, 日英翻訳の場合を前提に説明する.
IBM翻訳モデルでは, 日本語文を 5#5, 英語文を 6#6として定義する. また, IBM翻訳モデルにおいて,日本語文7#7と英語文8#8の翻訳モデル4#4を計算するため,アライメント 9#9を用いる. 以下にIBM翻訳モデルの基本式を示す.
なお, アラインメントとは, ある日本語単語 5#5 と英単語 6#6 の対応関係のことを示す.
IBM翻訳モデルでは, 日英統計翻訳の場合, 英単語は0から13#13個の対応を持ち, 日本語の単語は1つの英単語のみと対応すると仮定する. また, 日本語の単語の対応関係として適切な英単語がなかった場合, 英語文の文頭の特殊文字6#6と対応付けを行う.
s122053
2016-03-04