言語モデル

次へ: デコーダ 上へ: 統計翻訳システム 戻る: フレーズテーブルの作成法

言語モデル

言語モデルは，目的言語の単語列に対して，それらが起こる確率を与えるモデルである．日英翻訳では，より英語らしい文に対して高い確率を与えることで，翻訳モデルで翻訳された訳文候補の中から英語として自然な文を選出する．言語モデルとしては -gramモデルが代表的である．

尚，学習データに表れない単語連鎖確率値を0.0とすると，テストデータにおいて，目的言語の全ての単語列の確率が0.0になって，単語列が出力されないことがある．そのため，学習データに存在しない単語連鎖確率は，スムージングによって0.0以外の確率を割り当てる．代表的なスムージング法として，Backoff やKneser-Neyがある．これらは高次の -gramに，低次の -gramと閾値を掛けて利用する．

Jin'ichi Murakami 平成22年9月2日