-gramモデルは``単語列
の
番目の単語
の生起確率
は直前の
単語に依存する"という仮説に基づくモデルである.単語列
の生起確率
の計算式を式(2.19)に示す.
ここで,
は
から
番目までの単語列を表す.
例えば,``She is a teacher"という単語列に対して2-gramモデルを適応した場合,単語列の生起確率は式(2.20)で計算される.
3-gramの場合,``She is"の単語列の次に``a"が生じる確率を考える.しかし,
-gramモデルにおいて,信頼できる値を算出するためには,大規模な対訳学習文を用いることが必要である.そこで,出現数の少ない単語列をモデルの学習から削除する手法(カットオフ)や,確率が0になるのを防ぐため,大きい確率を小さく,小さい確率を大きくする手法(スムージング)が提案されている.スムージングの代表的な手法にバックオフ・スムージングがある.バックオフ・スムージングは学習データに出現しない
-gramを低次の
-gramで推定する手法である.表2.3に
-gramモデルにおける2-gramの例を示す.
2-gramの単語列 | 2-gramの確率 | バックオフ・スムージングによる確率 |
![]() |
![]() |
![]() |
American English | -1.885179 | -0.0880824 |
He is | -2.023028 | -0.000409741 |
I have | -1.509964 | -0.05597086 |