言語モデル

言語モデルとは,人間が用いる言葉の自然な並びを確率としてモデル化したもの であり,膨大な量の単言語データを用いて単語の列や文字の列が起こる 遷移確率を付与したものである.言語モデルには以下のようなものがある.

97#97-gram(2.23)

統計翻訳では主に97#97-gramを用いる. tri-gramの式を式2.23に示す.

98#98 (23)
99#99 (24)




100#100 : 英語単語 97#97 : 英文の単語数
101#101 : 対訳学習文の頻度  

実際の計算例を(2.24)に示す.

102#102 (25)
103#103 (26)
104#104 (27)
105#105 (28)
106#106 (29)
107#107 (30)

High order Joint Probability(2.25)

本研究では,言語モデルにTri-gramの代わりに High order Joint Probabilityを使用する. High order Joint Probabilityを式2.25に示す.

108#108 (31)
109#109 (32)


110#110 : 日本語単語 111#111 : 日本語文の単語数
100#100 : 英語単語 97#97 : 英文の単語数
112#112 : 出現確率  

実際の計算例を(2.26)に示す.また,計算式が長くに及ぶため,第1項のみ計算例を示す.

113#113 (33)
114#114 (34)
115#115 (35)
116#116 (36)

High order Dice(2.27)

117#117 (37)

実際の計算例を(2.28)に示す.また,計算式が長くに及ぶため,第1項のみ計算例を示す.

118#118 (38)

High order Log Linear(2.29)

119#119 (39)

実際の計算例を(2.30)に示す.また,計算式が長くに及ぶため,第1項のみ計算例を示す.

113#113 (40)
120#120 (41)
121#121 (42)