next up previous contents
次へ: 新聞記事における品詞のマルコフ連鎖確率の収束 率 上へ: 新聞記事 戻る: 新聞記事における音節のマルコフ連鎖確率の収束率   目次

新聞記事における漢字仮名文字のマルコフ連鎖確 率の収束率

新聞記事における漢字仮名文字の学習文字数に対するエントロピー およびカバー率のグラフを図3.3 に示す。なお、使用した漢字仮名の種類はJIS1級、約3000種類に 限定した。これらから以下のことがわかる。

  1. 漢字仮名文字の場合、連鎖確率の値を収束させるためには 音節の場合よりも大量のデータが必要である。

  2. カバー率 98%,96%の収束に必要な学習データの量は、音節と同様にエントロ ピーの場合よりも多く必要である。

  3. 漢字仮名と音節のエントロピーの値を比較すると、unigram とbigramにおいては、音節のエントロピーの方が低いが、trigramで は漢字仮名文字のエントロピーの方が低い。漢字仮名の種類の数は 音節の種類の数の約30倍もあることを考えると、漢字仮名文字の trigramによる言語制約による効果は、音節と比較すると、かなり大 きいと思われる。

図 3.3: 新聞記事における学習データ数に対する漢字仮名のマル コフ連鎖確率値のカバー率およびエントロピー
\begin{figure}\begin{center}
\fbox{\epsfile{file=FIGURE/figure2.2.ps,width=120mm}}\end{center}\end{figure}



Jin'ichi Murakami 平成13年1月5日