IBM翻訳モデルにおいて,各日本語単語に対応する英単語は1つであるのに対し,各英単語に対応する日本語単語は0から個あると仮定する.また,日本語単語に対応する適切な英単語がない場合,英語文の先頭に特殊文字があると仮定し,日本語単語と対応させる.
(2.3)式は,以下の式に分解することができる.は日本語文の長さ,は日本語文における,1番目から番目までのアライメント,は日本語文における,1番目から番目まで単語を表している.
(2.4)式は,とても複雑であるので計算が困難である.そこで,モデル1では以下の仮定により,パラメータの簡略化を行う.
パラメータの簡略化を行うことで,とは以下の式で表される.
モデル1では翻訳確率の初期値が0以外の場合,Expectation-Maximization(EM)アルゴリズムを繰り返し行うことで得られる,期待値を用いて最適解を推定する.EMアルゴリズムの手順を以下に示す.
は日本語文中で日本語単語が出現する回数, は英語文中で英単語が出現する回数を表している.
モデル1では,全ての単語の対応に対して,英語文の長さにのみ依存し,単語対応の確率を一定としている.そこで,モデル2では,番目の日本語単語と対応する英単語の位置は英語文の長さに加えて,と,日本語文の長さに依存し,以下のような関係とする.
この関係からモデル1における(2.6)式は,以下の式に変換できる.
モデル2では,期待値はと の2つが存在する.以下の式から求められる.
は対訳文中の英単語と日本語単語が対応付けされる回数の期待値,
は英単語の位置が日本語単語の位置に対応付けされる回数の期待値を表している.
モデル2では,EMアルゴリズムで計算すると複数の極大値が算出され,最適解が得られない可能性がある.モデル1では となるモデル2の特殊な場合であると考えられる.したがって,モデル1を用いることで最適解を得ることができる.
モデル3は,モデル1とモデル2とは異なり,1つの単語が複数対応する単語の繁殖数や単語の翻訳位置の歪みについて考慮する.またモデル3では単語の位置を絶対位置として考える.モデル3では以下のパラメータを用いる.
さらに,英単語が日本語単語に翻訳されない個数をとし,その確率を以下の式で求める.このとき,歪み確率は で,で,は0より大きいとする.
したがって,モデル3は以下の式で求められる.
モデル3では,全てのアライメントを計算するため,計算量が膨大となるので期待値を近似により求める.
モデル4では,モデル3と異なり,単語の位置を絶対位置ではなく,相対位置で考える.またモデル3では考慮されていない各単語の位置,例えば形容詞と名詞の関係を考慮する.モデル4では歪み確率を2つの場合で考える.
はk-1番目の英単語が対応する日本語単語の位置を表している.
は同じ英単語に対応している直前の日本語単語を表している.
モデル4では,単語の位置に関して直前の単語以外は考慮されていない.したがって,複数の単語が同じ位置に生じたり,単語の存在しない位置が生成される.モデル5では,この問題を避けるために,単語を空白部分に配置するよう改善が施されている.