next up previous
次へ: 新聞記事における漢字仮名文字のマルコフ連鎖確 率の収束率 上へ: 新聞記事 戻る: 新聞記事

新聞記事における音節のマルコフ連鎖確率の収束 率

音節のunigram・bigram・trigram・4-gramの学習データ量に対する エントロピーおよび頻度別出現率のグラフを図 1に示す。音節の種類の数 は、外来語を除き鼻音化したガ行を加え長音を1音節として111種類 である。これらから以下のことがわかる。

  1. エントロピーは比較的少ないデータで収束する。
  2. 頻度別出現率98%や96%が収束するのに必要な学習データの 量は、エントロピーを収束させるのに必要な学習データの量よりも 多くのデータが必要である。
  3. 頻度別出現率100%は学習データを増やしても収束する傾 向がみられない。これは、学習データを増加させるにともない、全 体に占める割合は少ないが、新しいマルコフモデルの組み合わせが たえず出現することを意味している。
  4. エントロピーはunigram・bigram・trigram・4-gramになるにしたがい低下する。

図 1: 新聞記事における学習データ数に対する音節のマルコフ 連鎖確率値の収束率
\begin{figure}\epsfile{file=figure1.eps,width=70mm}
\end{figure}



Jin'ichi Murakami 平成13年10月5日