next up previous contents
次へ: 新聞記事における漢字仮名文字のマルコフ連鎖確 率の収束率 上へ: 新聞記事 戻る: 新聞記事   目次

新聞記事における音節のマルコフ連鎖確率の収束率

音節のunigram・bigram・trigram・4-gramの学習データ量に対する エントロピーおよびカバー率のグラフを図 3.2に示す。音節の種類の数 は、外来語を除き鼻濁音化したガ行を加え長音を1音節として111種類 である。これらから以下のことがわかる。

  1. エントロピーは比較的少ないデータで収束する。
  2. カバー率98%や96%が収束するのに必要な学習データの 量は、エントロピーを収束させるのに必要な学習データの量よりも 多くのデータが必要である。
  3. カバー率100%は学習データを増やしても収束する傾 向がみられない。これは、学習データを増加させるにともない、全 体に占める割合は少ないが、新しい$N$-gramの組み合わせが たえず出現することを意味している。
  4. エントロピーはunigram・bigram・trigram・4-gramになるにしたがい低下する。

図 3.2: 新聞記事における学習データ数に対する音節のマルコフ 連鎖確率値のカバー率およびエントロピー
\begin{figure}\begin{center}
\fbox{\epsfile{file=FIGURE/figure2.1.ps,width=120mm}}\end{center}\end{figure}



Jin'ichi Murakami 平成13年1月5日