![]() |
![]() |
![]() |
(25) |
また,
の計算には,以下の式を用いる.なお,
は単語列の出現数である.
表10に,言語モデルの例を示す.表10の言語モデルは,2-gram(2単語間)のものである.
一番上の例に関して,左から,``He"のあとに``is"がくる確率を常用対数で表した値``
'',2-gramで表された単語列``He is",バックオフスムージングで推定された,``He"の後に``is"がくる確率を常用対数で表した値``
''である.
ここで,バックオフスムージングとは,高次の
-gramが存在しない場合,低次の
-gramを用いる手法である.この低次の確率を改良したスムージングの手法が,Kneser-Neyスムージングである.言語モデルにおける
-gram作成には,一般的にKneser-Neyスムージングが用いられている.