-gramモデルは``単語列 の 番目の単語 の生起確率 は直前の 単語に依存する"という仮説に基づくモデルである.単語列 の生起確率 の計算式を式(2.19)に示す.
ここで, は から 番目までの単語列を表す. 例えば,``She is a teacher"という単語列に対して2-gramモデルを適応した場合,単語列の生起確率は式(2.20)で計算される.
3-gramの場合,``She is"の単語列の次に``a"が生じる確率を考える.しかし, -gramモデルにおいて,信頼できる値を算出するためには,大規模な対訳学習文を用いることが必要である.そこで,出現数の少ない単語列をモデルの学習から削除する手法(カットオフ)や,確率が0になるのを防ぐため,大きい確率を小さく,小さい確率を大きくする手法(スムージング)が提案されている.スムージングの代表的な手法にバックオフ・スムージングがある.バックオフ・スムージングは学習データに出現しない -gramを低次の -gramで推定する手法である.表2.3に -gramモデルにおける2-gramの例を示す.
2-gramの単語列 | 2-gramの確率 | バックオフ・スムージングによる確率 |
American English | -1.885179 | -0.0880824 |
He is | -2.023028 | -0.000409741 |
I have | -1.509964 | -0.05597086 |