言語モデル

次へ: -gramモデル 上へ: 統計翻訳システムの概要 戻る: 翻訳モデル目次

言語モデル

言語モデルは，単語列に対して，それらの単語列の生成確率を付与するモデルである．言語モデルを用いることで，目的言語の文として適切な単語列を選出する．統計翻訳では一般的に

-gramモデルを用いる．

-gramモデルの例として2-gramモデルの例を以下の表2.2に示す．

表: -gramモデルの例
-0.920822	This is	-0.568185
-2.123066	This picture	-0.275901
-2.381344	This plan	-0.131124
-2.682374	This music	-0.083978
-3.638501	a pen	-0.100087
-3.296078	a pencil	-0.132691

一番上の行に関して説明すると以下となる．

-0.920822: ``This''のあとに``is''がくる確率を常用対数で表した値`` $\log_{10}( P( a\vert factory) )$ ''

This is:
2-gramで表された単語列

-0.5681853:
バックオフスムージングにより得られる，``This''のあとに``is''がくる確率を常用対数で表した値`` $\log_{10}( P( a\vert factory) )$ ''

また，バックオフスムージングとは，高次の-gramが存在しない場合，低次の-gramを用いる手法である．この低次の確率を改良したスムージングの手法がKneser-Neyスムージングである．言語モデルにおける-gram作成には，性能の良さから一般的にKneser-Neyスムージングが用いられる．

平成25年2月13日

-0.920822:	``This''のあとに``is''がくる確率を常用対数で表した値`` $\log_{10}( P( a\vert factory) )$ ''
This is:	2-gramで表された単語列
-0.5681853:	バックオフスムージングにより得られる，``This''のあとに``is''がくる確率を常用対数で表した値`` $\log_{10}( P( a\vert factory) )$ ''