次へ: 新聞記事における漢字仮名文字のマルコフ連鎖確 率の収束率
上へ: 新聞記事
戻る: 新聞記事
音節のunigram・bigram・trigram・4-gramの学習データ量に対する
エントロピーおよび頻度別出現率のグラフを図
1に示す。音節の種類の数
は、外来語を除き鼻音化したガ行を加え長音を1音節として111種類
である。これらから以下のことがわかる。
- エントロピーは比較的少ないデータで収束する。
- 頻度別出現率98%や96%が収束するのに必要な学習データの
量は、エントロピーを収束させるのに必要な学習データの量よりも
多くのデータが必要である。
- 頻度別出現率100%は学習データを増やしても収束する傾
向がみられない。これは、学習データを増加させるにともない、全
体に占める割合は少ないが、新しいマルコフモデルの組み合わせが
たえず出現することを意味している。
- エントロピーはunigram・bigram・trigram・4-gramになるにしたがい低下する。
図 1:
新聞記事における学習データ数に対する音節のマルコフ
連鎖確率値の収束率
|
Jin'ichi Murakami
平成13年10月5日