言語モデル

言語モデルとは,人間が用いる言葉の自然な並びを確率としてモデル化したもの であり,膨大な量の単言語データを用いて単語の列や文字の列が起こる 遷移確率を付与したものである.言語モデルには以下のようなものがある.

99#99-gram(2.23)

統計翻訳では主に99#99-gramを用いる. tri-gramの式を式2.23に示す.

100#100 (2.23)
101#101 (2.24)




102#102 : 英語単語 99#99 : 英文の単語数
103#103 : 対訳学習文の頻度  

実際の計算例を(2.24)に示す.

104#104 (2.25)
105#105 (2.26)
106#106 (2.27)
107#107 (2.28)
108#108 (2.29)
109#109 (2.30)

High order Joint Probability(2.25)

本研究では,言語モデルにTri-gramの代わりに High order Joint Probabilityを使用する. High order Joint Probabilityを式2.25に示す.

110#110 (2.31)
111#111 (2.32)


112#112 : 日本語単語 113#113 : 日本語文の単語数
102#102 : 英語単語 99#99 : 英文の単語数
114#114 : 出現確率  

実際の計算例を(2.26)に示す.また,計算式が長くに及ぶため,第1項のみ計算例を示す.

115#115 (2.33)
116#116 (2.34)
117#117 (2.35)
118#118 (2.36)

High order Dice(2.27)

119#119 (2.37)

実際の計算例を(2.28)に示す.また,計算式が長くに及ぶため,第1項のみ計算例を示す.

120#120 (2.38)

High order Log Linear(2.29)

121#121 (2.39)

実際の計算例を(2.30)に示す.また,計算式が長くに及ぶため,第1項のみ計算例を示す.

115#115 (2.40)
122#122 (2.41)
123#123 (2.42)