次へ: 新聞記事における漢字仮名文字のマルコフ連鎖確 率の収束率
上へ: 新聞記事
戻る: 新聞記事
  目次
音節のunigram・bigram・trigram・4-gramの学習データ量に対する
エントロピーおよびカバー率のグラフを図
3.2に示す。音節の種類の数
は、外来語を除き鼻濁音化したガ行を加え長音を1音節として111種類
である。これらから以下のことがわかる。
- エントロピーは比較的少ないデータで収束する。
- カバー率98%や96%が収束するのに必要な学習データの
量は、エントロピーを収束させるのに必要な学習データの量よりも
多くのデータが必要である。
- カバー率100%は学習データを増やしても収束する傾
向がみられない。これは、学習データを増加させるにともない、全
体に占める割合は少ないが、新しい-gramの組み合わせが
たえず出現することを意味している。
- エントロピーはunigram・bigram・trigram・4-gramになるにしたがい低下する。
図 3.2:
新聞記事における学習データ数に対する音節のマルコフ
連鎖確率値のカバー率およびエントロピー
|
Jin'ichi Murakami
平成13年1月5日