言語モデル

言語モデルとは，人間が用いる言葉の自然な並びを確率としてモデル化したものであり，膨大な量の単言語データを用いて単語の列や文字の列が起こる遷移確率を付与したものである．言語モデルには以下のようなものがある．

97#97-gram(2.23)

統計翻訳では主に97#97-gramを用いる． tri-gramの式を式2.23に示す．

98#98	(23)
99#99	(24)

100#100 : 英語単語	97#97 : 英文の単語数
101#101 : 対訳学習文の頻度

実際の計算例を(2.24)に示す．

High order Joint Probability(2.25)

本研究では，言語モデルにTri-gramの代わりに High order Joint Probabilityを使用する. High order Joint Probabilityを式2.25に示す．

108#108	(31)
109#109	(32)

実際の計算例を(2.26)に示す．また，計算式が長くに及ぶため，第1項のみ計算例を示す．

High order Dice(2.27)

117#117

(37)

実際の計算例を(2.28)に示す．また，計算式が長くに及ぶため，第1項のみ計算例を示す．

118#118

(38)

High order Log Linear(2.29)

119#119

実際の計算例を(2.30)に示す．また，計算式が長くに及ぶため，第1項のみ計算例を示す．