(5) | |||
(6) | |||
(7) |
また,
は以下の式で計算される.ここで,
は単語列の出現数である.
例えば,「He is japanese .」という単語列に対して2-gramの言語モデルを適用
した場合,単語列が生成される確率は以下の式で計算される.
(9) |
しかし,式から信頼できる値を算出するためには, 大規模なコー
パスを用いて,各単語列の出現数を高める必要がある.そこで,出現数の少ない
単語列をモデルの学習から削除(カットオフ)する手法や,確率が0となるのを防
ぐために,大きい確率を小さく,小さい確率を大きくするスムージング手法が提
案されている.スムージングの代表的な手法にバックオフ・スムージングが
ある.バックオフ・スムージングは学習データに出現しないN-gramの値を
より低い次数のN-gramの値から推定する.trigramの例を以下に示す.
(10) |
ここで, をディスカウント係数, をバックオフ係数と呼ぶ.