next up previous contents
次へ: X線CT所見作成のデータ 上へ: 新聞記事 戻る: 新聞記事における漢字仮名文字のマルコフ連鎖確 率の収束率   目次

新聞記事における品詞のマルコフ連鎖確率の収束 率

品詞は、名詞・助詞などの機能的な分類の他に地名・人名・色の種 類など意味的にも分類されていて、約450種類ある。学習データの 量の変化に対する品詞のエントロピーおよびカバー率のグラフ を図3.4に示す。これらから以下 のことが示される。

  1. 品詞は、音節や漢字仮名と比較すると小量のデー タで収束する。
  2. 音節や漢字仮名では、unigram,bigram,trigramになるにし たがいエントロピーは半減している。しかし、品詞の場合、 unigramのエントロピーの値に対してbigramのエントロピーの値は 約半減するが、bigramのエントロピーの値に対してtrigramのエン トロピーの値は、あまり減少しない。

図 3.4: 新聞記事における学習データ数に対する品詞のマルコフ連鎖確率値のカバー率およびエントロピー
\begin{figure}\begin{center}
\fbox{\epsfile{file=FIGURE/figure2.3.ps,width=120mm}}\end{center}\end{figure}



Jin'ichi Murakami 平成13年1月5日