next up previous contents
次へ: まとめ 上へ: trigramの有効性について 戻る: 実験結果   目次

考察

  1. マルコフ連鎖値の収束性

    text-closed dataとtext-open dataの正解率の差は音節、特に漢字かな文字 の文節候補において顕著であるのにたいして、品詞の文節候補では差がほとん ど認められない。これはマルコフ連鎖値の収束性の問題で、さらに多く日本文 を収集することにより両者がお互いに接近する形で、その差は減少すると判断 される。

  2. 音節と漢字かなの情報量

    音節と漢字かなの特性を比較すると、unigram,bigram,4-gramの場合は音節の 方がエントロピーが小さいが、trigramの場合は逆に漢字かなの方が小さくなっ ている点が特徴的である。これは、trigramにおいては、漢字かなの方が情報 量が大きく、それ以上、次数を上げても効果は少ないのに対して、音節ではさ らに次数を上げればそれだけ効果が得られることを意味していると思われる。

  3. 誤りの原因

    漢字かなの文節候補の選出において、text-closed dataの実験で、正解候補が 最終的に8位以内に入らなかった文節を見ると、それらのすべてが、音節選出 型の方式では音節の文節候補の失敗に起因し、直接選出型の方式では単語境界 の分割数が足りないことに起因していることがわかった。

    前者の漏れを防ぐには、音節のtrigramで抽出する文節候補の数 を増やすことが考えられるが、計算量の増加を伴うので適当なトレードオフが 必要となる。また、後者の漏れを防ぐには単なる分割数最小法ではなく、係り 受け併用型の分割数最小法[46]を採用した方が良いと考えられる。



Jin'ichi Murakami 平成13年1月5日