next up previous
次へ: 新聞記事における品詞のマルコフ連鎖確率の収束 率 上へ: 新聞記事 戻る: 新聞記事における音節のマルコフ連鎖確率の収束 率

新聞記事における漢字仮名文字のマルコフ連鎖確 率の収束率

新聞記事における漢字仮名文字の学習文字数に対するエントロピー および頻度別出現率のグラフを図2 に示す。なお、使用した漢字仮名の種類はJIS1級、約3000種類に 限定した。これらから以下のことがわかる。

図 2: 新聞記事における学習データ数に対する漢字仮名のマル コフ連鎖確率値の収束率
\begin{figure}\epsfile{file=figure2.eps,width=70mm}
\end{figure}

  1. 漢字仮名文字の場合、連鎖確率の値を収束させるためには音節の場合よりも大量のデータが必要である。
  2. 頻度別出現率 98%,96%の収束に必要な学習データの量は、音節と同様にエント ロピーの場合よりも多く必要である。
  3. 漢字仮名と音節のエントロピーの値を比較すると、unigram とbigramにおいては、音節のエントロピーの方が低いが、trigram では漢字仮名文字のエントロピーの方が低い。漢字仮名の種類の数 は音節の種類の数の約30倍もあることを考えると、漢字仮名文字の trigramの持つ情報量は、音節と比較すると、かなり多いと思われ る。



Jin'ichi Murakami 平成13年10月5日