考察

次へ: まとめ 上へ: trigramの有効性について 戻る: 実験結果目次

考察

マルコフ連鎖値の収束性
text-closed dataとtext-open dataの正解率の差は音節、特に漢字かな文字の文節候補において顕著であるのにたいして、品詞の文節候補では差がほとんど認められない。これはマルコフ連鎖値の収束性の問題で、さらに多く日本文を収集することにより両者がお互いに接近する形で、その差は減少すると判断される。
音節と漢字かなの情報量
音節と漢字かなの特性を比較すると、unigram,bigram,4-gramの場合は音節の方がエントロピーが小さいが、trigramの場合は逆に漢字かなの方が小さくなっている点が特徴的である。これは、trigramにおいては、漢字かなの方が情報量が大きく、それ以上、次数を上げても効果は少ないのに対して、音節ではさらに次数を上げればそれだけ効果が得られることを意味していると思われる。
誤りの原因
漢字かなの文節候補の選出において、text-closed dataの実験で、正解候補が最終的に8位以内に入らなかった文節を見ると、それらのすべてが、音節選出型の方式では音節の文節候補の失敗に起因し、直接選出型の方式では単語境界の分割数が足りないことに起因していることがわかった。
前者の漏れを防ぐには、音節のtrigramで抽出する文節候補の数を増やすことが考えられるが、計算量の増加を伴うので適当なトレードオフが必要となる。また、後者の漏れを防ぐには単なる分割数最小法ではなく、係り受け併用型の分割数最小法[46]を採用した方が良いと考えられる。

Jin'ichi Murakami 平成13年1月5日