-gramモデル

$\displaystyle P(w^{n}_{1})$	$\textstyle =$	$\displaystyle P(w_1)×P(w_2\vert w_1)×P(w_3\vert w_1^2)...P(w_n\vert w_1^{n-1})$	(2.3)
	$\textstyle \approx$	$\displaystyle P(w_1)×P(w_2\vert w_1)×P(w_3\vert w_1^2)...P(w_n\vert w_{n-(N-1)}^{n-1})$	(2.4)
	$\textstyle =$	$\displaystyle \prod^{n}_{i=1}P(w_{i}\vert w_{i-(N-1)}^{i-1})$	(2.5)

また， $P(w_{i}\vert w_{n-(N-1)}^{i-1})$ は以下の式で計算される．ここで

は単語列

が出現する頻度を表す．

$\displaystyle P(w_{i}\vert w_{i-(N-1)}^{i-1}) = \frac{C(w_{i-(N-1)}^i)}{C(w_{i-(N-1)}^{i-1})}$

(2.6)

たとえば，``I have dogs .''という単語列に対して

としたbi-gramモデルの言語モデルを適応した場合，単語列が生成される確率は以下の式で計算される．

$\displaystyle P( \lq\lq I have dogs .'')$

$\textstyle \simeq$

$\displaystyle P(I)×P(have\vert I)×P(dogs\vert have)...P(.\vert dogs)$

(2.7)

tri-gramモデルであれば， $P(dogs\vert I have)$ ，4-gramモデルであれば $P(.\vert I have dogs)$ となる．

(2.6)式から信頼性の高い値を推定するためには，単語列

が多く出現している必要がある．しかし，実際には多くの単語列は出現数が0となることが多いため信頼できる値を推定できない場合が多い．低頻度な語彙の場合， $C(w_{i-(N-1)}^i)，C(w_{i-(N-1)}^{i-1})$ の値が小さく，信頼性が低い．また，学習データ中に単語列

が存在しない場合，この単語列の出現確率は０と推定される．そのため，(2.6)式から信頼できる値を算出するためには，大規模なコーパスを用いて，各単語列の出現数を高める必要がある．そこで，出現頻度の少ない単語列をモデルの学習から削除(カットオフ)する方法や，確率が0となるのを防ぐために，大きい確率を小さく，小さい確率を大きくするスムージング手法が提案されている．スムージングの代表的な手法にバックオフ・スムージングがある．バックオフ・スムージングは学習データに出現しない

-gramの値をより低い次数の(

-1)-gramの値から推定する．