next up previous contents
次へ: N-gramモデル 上へ: 句に基づく統計翻訳システム 戻る: フレーズテーブルの作成法   目次

言語モデル

言語モデルは単語列の生じる確率を与えるモデルである.日英翻訳では,翻訳モデ ルで生成された翻訳候補から英語として自然な文を選出する.統計翻訳では一般 に,N-gramモデルを用いる.


表: 言語モデルの例
-0.9121773 factory . -0.772665
-1.571392 factory has -0.05683998
-1.120353 factory in -0.05121826
-1.821027 factory will -0.0660101
-1.56243 facts do -0.2219447
-1.232086 facts of -0.227057

一番上の行に関して,左から,``factory'' のあとに``.'' がくる確率を常用対数で表した値 `` 82#82 ”,2-gram で表された単語列である ``factory .'',バックオフスムージングにより得られる,``factory'' のあとに``.'' が くる確率を常用対数で表した値`` 83#83 '' である. また,バックオフスムージングとは,高次のN-gram が存在しない場合,低次のN-gram を用いる手法である.この低次の確率を,改良したスムージングの手法がKneser-Ney ス ムージングである.言語モデルにおけるN-gram 作成には,性能の観点から一般的に Kneser-Ney スムージングが用いられている.



root 平成24年3月22日