next up previous
次へ: X線CT所見作成 上へ: 新聞記事 戻る: 新聞記事における漢字仮名文字のマルコフ連鎖確 率の収束率

新聞記事における品詞のマルコフ連鎖確率の収束 率

品詞は、名詞・助詞などの機能的な分類の他に地名・人名・色の種 類など意味的にも分類されていて、約450種類ある。学習データの 量の変化に対する品詞のエントロピーおよび頻度別出現率のグラフ を図3に示す。これらから以下 のことが示される。

図 3: 新聞記事における学習データ数に対する品詞のマルコフ 連鎖確率値の収束率
\begin{figure}\epsfile{file=figure3.eps,width=70mm}
\end{figure}

  1. 品詞は、音節や漢字仮名と比較すると小量のデー タで収束する。
  2. 音節や漢字仮名では、unigram,bigram,trigramになるにし たがいエントロピーは半減している。しかし、品詞の場合、 unigramのエントロピーの値に対してbigramのエントロピーの値は 約半減するが、bigramのエントロピーの値に対してtrigramのエン トロピーの値は、あまり減少しない。したがって品詞のtrigramの 情報量は、少ないと思われる。



Jin'ichi Murakami 平成13年10月5日