次へ: 提案手法
上へ: 言語モデル
戻る: 言語モデルの概要
目次
-gramモデル
代表的な言語モデルとして,-gramモデルがある,-gramモデルは,1次元
の単語列
における番目の単語の生起確率が,
直前の単語列
に依存するという仮
説に基づくモデルである.これは,以下の式にで表せる.
また,
は以下の式で計算される.は単語列の
出現数である.
例えば,「He is a teacher .」という単語列に対して2-gramの言語モデルを適
用した場合,単語列が生成される確率は以下の式で計算される.
しかし,2.4から信頼できる値を算出するためには,各単語列の出現率が
高い必要がある.しかし,実際には,多くの単語列の出現率が0となることが多
いため,信頼できる値を算出できない場合が多い.したがって,確率値を平滑化
する手法であるスムージングを行う.代表的な手法にバックスオフスムージング
がある,バックオフスムージングでは学習データに出現しない-gramを
(-1)-gramの値から推定する.例として,3-gramの場合の確率は以下の式で推
定される.
|
|
|
(2.7) |
ここで,をディスカウント係数,をバックオフ係数と呼ぶ.
平成24年3月30日