next up previous contents
次へ: -gramモデル 上へ: 言語モデル 戻る: 言語モデル   目次

概要

言語モデルは,単語列に対して,それらの単語列が起こる確率を付与するモデル である.日英統計翻訳では,言語モデルを使用して,英語として自然な文を選出 する.言語モデルの例を以下に示す.
言語モデルの例
-0.9121773 factory . -0.772665
-1.571392 factory has -0.05683998
-1.120353 factory in -0.05121826
-1.821027 factory will -0.0660101
-1.56243 facts do -0.2219447
-1.232086 facts of -0.227057
-0.1661982 faculties . -0.4716349
-0.847985 faculty . -0.3466964
-0.4806468 fad . -0.2219448
-0.7325071 fade . -0.2219448
一番上の行に関して,左から,``factory''のあとに``.''がくる確率を常用対数 で表した値`` $log_{10}(P(a\ \vert\ factory))=-0.9121773$'',2-gramで表された単語列 である``factory .'',バックオフスムージングにより得られる,``factory''のあとに``.''がくる確率を常用対数 で表した値`` $log_{10}(P(a\ \vert\ factory))=-0.772665$''である.
また,バックオフスムージングとは,高次の$N$-gramが存在しない場合,低次の $N$-gramを用いる手法である. この低次の確率を,改良したスムージングの手法がKneser-Neyスムージングであ る. 言語モデルにおける$N$-gram作成には,性能の観点から一般的にKneser-Neyスムー ジングが用いられている.



平成22年2月11日