(2.5) |
また,
の計算には,以下の式を用いる.なお,
は,単語列
の出現数であり,
は,単語列
の出現数である.
表2.2に,言語モデルの例を示す.表2.2の言語モデルは,2-gram(2単語間)のものである.
2-gramで表された単語列 | 2-gramの確率 | バックオフスムージングによる確率 |
He is | -2.041488 | -0.000405 |
He had | -2.804095 | -0.006078 |
He made | -2.895682 | 0.001770 |
表2.2の一番上の例に関して,左から,``He"のあとに``is"がくる確率を常用対数で表した値`` '',2-gramで表された単語列``He is",バックオフスムージングで推定された,``He"の後に``is"がくる確率を常用対数で表した値`` ''である. ここで,バックオフスムージングとは,高次の -gramが存在しない場合,低次の -gramを用いる手法である.