(25) |
また,
の計算には,以下の式を用いる.なお,
は単語列の出現数である.
表10に,言語モデルの例を示す.表10の言語モデルは,2-gram(2単語間)のものである.
一番上の例に関して,左から,``He"のあとに``is"がくる確率を常用対数で表した値`` '',2-gramで表された単語列``He is",バックオフスムージングで推定された,``He"の後に``is"がくる確率を常用対数で表した値`` ''である. ここで,バックオフスムージングとは,高次の -gramが存在しない場合,低次の -gramを用いる手法である.この低次の確率を改良したスムージングの手法が,Kneser-Neyスムージングである.言語モデルにおける -gram作成には,一般的にKneser-Neyスムージングが用いられている.