next up previous
次へ: かな漢字変換の変換精度 上へ: かな漢字変換の実験 戻る: マルコフモデルの連鎖確率

漢字かなのエントロピー

漢字かなの持つ情報量を調べるために、実験に用いた、文節単位 の日本語の漢字かなの0重,1重, 2重,3重のマルコフモデルのエント ロピーを計算した。結果を表1に示す。なお比較のために音節のエ ントロピーも同時に計算した。





表 1: 漢字かなの持つエントロピー (bit)
  漢字かな 音節
0重(unigram) 8.15 5.67
1重(bigram) 4.45 4.29
2重(trigram) 2.87 2.94
3重(4-gram) 2.29 2.16

表1から以下のことがらが示される。

  1. 漢字かなは音節と比較して数百倍の文字数からなるにもかかわ らず、漢字かなのbigram,trigram,4-gramのエントロピーの値は音 節と大きな差がない。したがって漢字かなのマルコフモデルは非常に 高い情報量を持っていると予想される。
  2. マルコフモデルの次数をあげるに従いエントロピーが減少して いる。これから高い次数のモデルほど高い精度のかな漢字変換が得 られることが予想される。



平成15年9月30日