次へ: X線CT所見作成
上へ: 新聞記事
戻る: 新聞記事における漢字仮名文字のマルコフ連鎖確 率の収束率
品詞は、名詞・助詞などの機能的な分類の他に地名・人名・色の種
類など意味的にも分類されていて、約450種類ある。学習データの
量の変化に対する品詞のエントロピーおよび頻度別出現率のグラフ
を図3に示す。これらから以下
のことが示される。
図 3:
新聞記事における学習データ数に対する品詞のマルコフ
連鎖確率値の収束率
|
- 品詞は、音節や漢字仮名と比較すると小量のデー
タで収束する。
- 音節や漢字仮名では、unigram,bigram,trigramになるにし
たがいエントロピーは半減している。しかし、品詞の場合、
unigramのエントロピーの値に対してbigramのエントロピーの値は
約半減するが、bigramのエントロピーの値に対してtrigramのエン
トロピーの値は、あまり減少しない。したがって品詞のtrigramの
情報量は、少ないと思われる。
Jin'ichi Murakami
平成13年10月5日