次へ: 新聞記事における品詞のマルコフ連鎖確率の収束 率
上へ: 新聞記事
戻る: 新聞記事における音節のマルコフ連鎖確率の収束 率
新聞記事における漢字仮名文字の学習文字数に対するエントロピー
および頻度別出現率のグラフを図2
に示す。なお、使用した漢字仮名の種類はJIS1級、約3000種類に
限定した。これらから以下のことがわかる。
図 2:
新聞記事における学習データ数に対する漢字仮名のマル
コフ連鎖確率値の収束率
|
- 漢字仮名文字の場合、連鎖確率の値を収束させるためには音節の場合よりも大量のデータが必要である。
- 頻度別出現率
98%,96%の収束に必要な学習データの量は、音節と同様にエント
ロピーの場合よりも多く必要である。
- 漢字仮名と音節のエントロピーの値を比較すると、unigram
とbigramにおいては、音節のエントロピーの方が低いが、trigram
では漢字仮名文字のエントロピーの方が低い。漢字仮名の種類の数
は音節の種類の数の約30倍もあることを考えると、漢字仮名文字の
trigramの持つ情報量は、音節と比較すると、かなり多いと思われ
る。
Jin'ichi Murakami
平成13年10月5日