next up previous contents
次へ: デコーダ 上へ: 句に基づく統計翻訳 戻る: 翻訳モデル   目次

言語モデル

言語モデルは,単語または単語列に対して,生成確率を付与するモデルである. 日英翻訳では,言語モデルを用いて,生成された翻訳候補から英語を選出する. 統計翻訳では一般に,16#16-gramモデルを用いる. 16#16-gramモデルの例を表[*]に示す.なお,表[*]は,2-gram(2単語間)である.


表: 16#16-gramモデルの例
-1.782704 13#13 I am 13#13 -0.04873917
-1.610493 13#13 that is 13#13 -0.01120672
-2.346281 13#13 train goes 13#13 -0.09572452
-1.868116 13#13 woman and 13#13 -0.1343922

[*]において,一番上の行は,左から, ``I"の後に``am"が続く確率を常用対数で表した値 `` 17#17", 2-gramで表現された単語列``I am", バックオフスムージングにより推定された``I"の後に``am"が続く確率を常用対数で表した値 `` 18#18"である.

バックオフスムージングとは,高次の16#16-gramの値が存在しない場合, 低次の16#16-gramの値から推定する手法である.低次の確率を改良したスムージングの手法は, Kneser-Neyスムージングである.言語モデルの16#16-gramの作成においては, 一般的にKneser-Neyスムージングが用いられる.



平成26年3月10日