(3.19) |
しかし,入力文において学習データに存在しない単語列がある場合,その単語列の確率は0となり,翻訳精度が悪化する傾向となる.そこで,確率が0となるのを防ぐために,大きい確率はより小さく,小さい確率はより大きくし,全体の確率値を平滑化及び近似を行う.これはスムージングという方法であり,代表的にはバックオフスムージングがある.バックオフスムージングは,学習データには出現していない-gram単語列の確率を,-gram単語列の確率でスムージングを行う.=3-gramの場合のバックオフスムージングによる確率は以下の式に求められる.
(3.20) |
はディスカウント係数と呼ばれ,学習データに存在しない-gramに対し,学習データに存在する-gramから確率値を求める.は確率の総和を1にするための正規化係数である.及びは以下に求められる.
(3.21) | |||
(3.22) |
ディスカウント系数を求める方法は多く,ukndiscount(Unmodified Kneser-Ney discounting)やkndiscount(Chen and Goodman's modified Kneser-Ney discounting)がある.
ukndiscountとkndiscountの違いは,一つまたは二つの単語を考慮してスムージングを行う(undiscount)か,一つ,二つまたは三つの-gram単語列を考慮してスムージングを行う(kndiscount)かである.