次へ: 新聞記事における品詞のマルコフ連鎖確率の収束 率
上へ: 新聞記事
戻る: 新聞記事における音節のマルコフ連鎖確率の収束率
  目次
新聞記事における漢字仮名文字の学習文字数に対するエントロピー
およびカバー率のグラフを図3.3
に示す。なお、使用した漢字仮名の種類はJIS1級、約3000種類に
限定した。これらから以下のことがわかる。
- 漢字仮名文字の場合、連鎖確率の値を収束させるためには
音節の場合よりも大量のデータが必要である。
- カバー率
98%,96%の収束に必要な学習データの量は、音節と同様にエントロ
ピーの場合よりも多く必要である。
- 漢字仮名と音節のエントロピーの値を比較すると、unigram
とbigramにおいては、音節のエントロピーの方が低いが、trigramで
は漢字仮名文字のエントロピーの方が低い。漢字仮名の種類の数は
音節の種類の数の約30倍もあることを考えると、漢字仮名文字の
trigramによる言語制約による効果は、音節と比較すると、かなり大
きいと思われる。
図 3.3:
新聞記事における学習データ数に対する漢字仮名のマル
コフ連鎖確率値のカバー率およびエントロピー
|
Jin'ichi Murakami
平成13年1月5日