next up previous contents
次へ: N-gramモデル 上へ: 言語モデル 戻る: 言語モデル   目次

言語モデルの概要

言語モデルは単語列の生じる確率を与えるモデルである.日英翻訳では,翻訳モデ ルで生成された翻訳候補から英語として自然な文を選出する.統計翻訳では一般 に,N-gramモデルを用いる.表3.11に言語モデル(2-gram)の例を示す.

表: 言語モデルの例
  \(\cdots\)  
-1.941598 7 billion -0.8050393
-0.3828715 Almost all -0.2935186
-3.080696 be silent -0.7815382
-3.256787 be similar -0.5834416
-1.527517 both hands -0.05090702
-1.355388 characters with -0.545048
-1.665734 few hours -0.7934405
-1.392733 few minutes -0.1146355
-2.38916 her house -0.06943518
-3.250479 his birthday -0.1799351
-3.588309 is designed -0.03691489
-0.5900388 located in -0.2151646
  \(\cdots\)  

表の1行目の例では,左の数値は\(7\)の後に\(billion\)が来る確率 \(P(billion\vert 7)\)を常用対数\(\log_{10}\)でとった値 \(\log_{10}P(billion\vert 7)\) である.次に,2-gramで表された単語列\(7\ billion\),そしてバックオフスムー ジングで推定された,\(7\)の後に\(billion\)が来る確率\(P(billion\vert 7)\)を 常用対数\(\log_{10}\)でとった値 \(\log_{10}P(billion\vert 7)\)である.バックオフ スムージングに関しては,第3.6.2節で述べる.



平成24年3月23日