言語モデル

言語モデルとは,人間が用いる言葉の自然な並びを確率としてモデル化したもの であり,膨大な量の単言語データを用いて単語の列や文字の列が起こる 遷移確率を付与したものである.言語モデルには以下のようなものがある.

1#1-gram(2.23)

統計翻訳では主に1#1-gramを用いる. tri-gramの式を式2.23に示す.

97#97 (23)
98#98 (24)




99#99 : 英語単語 1#1 : 英文の単語数
100#100 : 対訳学習文の頻度  

実際の計算例を(2.24)に示す.

101#101 (25)
102#102 (26)
103#103 (27)
104#104 (28)
105#105 (29)
106#106 (30)

High order Log Linear(2.25)

107#107 (31)

実際の計算例を(2.26)に示す.また,計算式が長くに及ぶため,第1項のみ計算例を示す.

108#108 (32)
109#109 (33)
110#110 (34)