次へ: かな漢字変換の変換精度
上へ: かな漢字変換の実験
戻る: マルコフモデルの連鎖確率
漢字かなの持つ情報量を調べるために、実験に用いた、文節単位
の日本語の漢字かなの0重,1重, 2重,3重のマルコフモデルのエント
ロピーを計算した。結果を表1に示す。なお比較のために音節のエ
ントロピーも同時に計算した。
表 1:
漢字かなの持つエントロピー (bit)
|
漢字かな |
音節 |
0重(unigram) |
8.15 |
5.67 |
1重(bigram) |
4.45 |
4.29 |
2重(trigram) |
2.87 |
2.94 |
3重(4-gram) |
2.29 |
2.16 |
表1から以下のことがらが示される。
- 漢字かなは音節と比較して数百倍の文字数からなるにもかかわ
らず、漢字かなのbigram,trigram,4-gramのエントロピーの値は音
節と大きな差がない。したがって漢字かなのマルコフモデルは非常に
高い情報量を持っていると予想される。
- マルコフモデルの次数をあげるに従いエントロピーが減少して
いる。これから高い次数のモデルほど高い精度のかな漢字変換が得
られることが予想される。
平成15年9月30日