次へ: Model2
上へ: IBM翻訳モデル
戻る: IBM翻訳モデル
目次
(2.3)式は次のように置き換えられる.
 |
|
|
(2.4) |
は日本語の文長であり,
は日本語文の1単語目から
単語目までのアライメントである.また,
は日本語文の1番目から
番目までの単語を示す.
(2.4)式の右辺は,パラメータが多く複雑なため,計算が困難である.そこで,Model1では(2.4)式のパラメータを簡略化する.
- 文の長さの確率
は,mとEに依存しない
- アライメントの確率は英語文の長さlに依存する
- 日本語の翻訳確率
は,日本語単語
に対応づけられる英単語
に依存する
これらの定理を用いて,パラメータを簡略化した場合の
,
は以下になる.
Model1は,翻訳確率
の初期値が0以外の時,EMアルゴリズムを繰り返して得られる唯一の極大値より最適解を推定する.EMアルゴリズムは以下の手順で行われる.
- 手順1
- 翻訳確率
の初期値を設定する
- 手順2
- 日本語と英語の対訳文(
,
),1
s
Sにおいて,日本語単語
と英単語
が対応する回数の期待値を計算する.ここで
は日本語文
において日本語単語
が出現する回数を表し,
は英語文
において英単語
が出現する回数を表す.
 |
|
|
(2.8) |
- 手順3
- 英語文
のうち1回以上出現する英単語
に対し,翻訳確率
を計算する.ここで
は日英対訳文の文数を表す.
- 定数
を以下の式で計算する.
 |
|
|
(2.9) |
- 翻訳確率
を以下の式で再計算する.
- 手順4
- 翻訳確率
が収束するまで手順2と3を繰り返す
次へ: Model2
上へ: IBM翻訳モデル
戻る: IBM翻訳モデル
目次
s102025
平成27年3月9日