next up previous contents
次へ: N-gramモデル 上へ: 言語モデル 戻る: 言語モデル   目次

言語モデルの概要

言語モデルは単語列の生じる確率を与えるモデルである.日英翻訳では,翻訳モデ ルで生成された翻訳候補から英語として自然な文を選出する.統計翻訳では一般 に,N-gramモデルを用いる.表3.11に言語モデル(2-gram)の例を示す.

表 3.11: 言語モデルの例
  \(\cdots\)  
-0.8844527 20 percent 0.03774649
-0.0001015063 According to -0.575068
-0.3670357 Give me -0.365383
-2.819615 a baby -0.2337404
-2.940145 by bicycle -0.3376624
-1.589816 don't believe -0.0742262
-0.9539242 exhibition of -0.3110435
-0.9351615 higher than -0.2300005
-2.251086 other country 0.1438151
-1.019305 zero degrees -0.1247963
  \(\cdots\)  

表の1行目の例では,左の数値は\(20\)の後に\(percent\)が来る確率 \(P(percent\vert 20)\)を常用対数\(\log_{10}\)でとった値 \(\log_{10}P(percent\vert 20)\) である.次に,2-gramで表された単語列\(20\ percent\),そしてバックオフスムー ジングで推定された,\(20\)の後に\(percent\)が来る確率\(P(percent\vert 20)\)を 常用対数\(\log_{10}\)でとった値 \(\log_{10}P(percent\vert 20)\)である.バックオフ スムージングに関しては,第3.6.2章で述べる.



平成22年2月11日