next up previous contents
次へ: デコーダ 上へ: 句に基づく統計翻訳 戻る: 翻訳モデル   目次

言語モデル

言語モデルは,単語または単語列に対して,生成確率を付与するモデルである. 日英翻訳では,言語モデルを用いて,生成された翻訳候補から英語を選出する. 統計翻訳では一般に,$N$-gramモデルを用いる. $N$-gramモデルの例を表[*]に示す.なお,表[*]は,2-gram(2単語間)である.


表: $N$-gramモデルの例
-1.782704 $\mid \mid \mid $ I am $\mid \mid \mid $ -0.04873917
-1.610493 $\mid \mid \mid $ that is $\mid \mid \mid $ -0.01120672
-2.346281 $\mid \mid \mid $ train goes $\mid \mid \mid $ -0.09572452
-1.868116 $\mid \mid \mid $ woman and $\mid \mid \mid $ -0.1343922

[*]において,一番上の行は,左から, ``I"の後に``am"が続く確率を常用対数で表した値 `` $\log _{10}\left( P\left( am\vert I\right) \right) = -1.782704 $", 2-gramで表現された単語列``I am", バックオフスムージングにより推定された``I"の後に``am"が続く確率を常用対数で表した値 `` $\log _{10}\left( P\left( am\vert I\right) \right) = -0.04873917 $"である.

バックオフスムージングとは,高次の$N$-gramの値が存在しない場合, 低次の$N$-gramの値から推定する手法である.低次の確率を改良したスムージングの手法は, Kneser-Neyスムージングである.言語モデルの$N$-gramの作成においては, 一般的にKneser-Neyスムージングが用いられる.



平成25年2月12日