次へ: Model2
上へ: IBM翻訳モデル
戻る: IBM翻訳モデル
目次
(2.3)式は次のように置き換えられる.
|
|
|
(2.4) |
は日本語の文長であり,は日本語文の1単語目から単語目までのアライメントである.また,は日本語文の1番目から番目までの単語を示す.
(2.4)式の右辺は,パラメータが多く複雑なため,計算が困難である.そこで,Model1では(2.4)式のパラメータを簡略化する.
- 文の長さの確率は,mとEに依存しない
- アライメントの確率は英語文の長さlに依存する
- 日本語の翻訳確率
は,日本語単語に対応づけられる英単語に依存する
これらの定理を用いて,パラメータを簡略化した場合の,は以下になる.
Model1は,翻訳確率の初期値が0以外の時,EMアルゴリズムを繰り返して得られる唯一の極大値より最適解を推定する.EMアルゴリズムは以下の手順で行われる.
- 手順1
- 翻訳確率の初期値を設定する
- 手順2
- 日本語と英語の対訳文(,),1sSにおいて,日本語単語と英単語が対応する回数の期待値を計算する.ここで
は日本語文において日本語単語が出現する回数を表し,
は英語文において英単語が出現する回数を表す.
|
|
|
(2.8) |
- 手順3
- 英語文のうち1回以上出現する英単語に対し,翻訳確率を計算する.ここでは日英対訳文の文数を表す.
- 定数を以下の式で計算する.
|
|
|
(2.9) |
- 翻訳確率を以下の式で再計算する.
- 手順4
- 翻訳確率が収束するまで手順2と3を繰り返す
次へ: Model2
上へ: IBM翻訳モデル
戻る: IBM翻訳モデル
目次
s102025
平成27年3月9日