次へ: デコーダ 上へ: 英日統計翻訳システム 戻る: 翻訳モデル目次

言語モデル

言語モデルとは，膨大な量の単言語データを用いて単語の列や文字の列が起こる確率を付与するモデルである．統計翻訳では主に

-gramを用いる．以下に言語モデル(tri-gram)の例を示す．表中の

，

はそれぞれtri-gramの単語列における1番目，2番目，3番目の単語を示している．

表: 言語モデルの例
tri-gramの単語列	$log_{10}(P(w_3\ \vert \ w_1$	$log_{10}(P(w_3\ \vert \ w_1$
	(スムージングなし)	(バックオフスムージング)
痛みが伴う	-1.382585	-0.3105274
堤防が決壊	-1.061585	-0.1920604
天気がよかっ	-1.768149	-0.1920604
納得がいか	-0.6635545	-0.1101559
梅雨が明け	-0.7214168	-0.1029072
風が吹く	-2.222238	-0.1920604

表の1行目の例では，左側の数値が，"痛み" と "が" という文字列が連続した後に，"伴う" が出現する確率を常用対数で表した値 " $log_{10}(P(伴う\ \vert\ 痛み$ " を，中央がtri-gramで表された単語列である "痛みが伴う"を，右側の数値はバックオフスムージングにより得られる， "痛みが" の後に "伴う" が出現する確率を常用対数で表した値 " $log_{10}(P(伴う\ \vert\ 痛み$ "を示している．
また，バックオフスムージングとは，高次の-gramが存在しない場合において，低次の-gramの値を用いて高次の-gramの値を推定する方法である．

eki takashi 平成24年3月13日