ここでは、新聞記事およびX線CT所見作成およびATRの国際会議の 申し込みの文章において、学習データ量に対する音声・漢字仮名・ 品詞・単語のマルコフ連鎖確率値の収束率を求めた。これらの結 果から、以下のことが示される。
エントロピーとカバー率の収束性を比較すると、全てのデータ においてエントロピーはカバー率よりも少ない学習データ量で 収束することが示された。これは学習データ量に対するマルコフ連 鎖確率値の変化について研究する場合、エントロピーだけでなく、 カバー率も考察する必要があることを意味していると思われる。
カバー率のデータを見ると、学習データが増加した場合、100%は 収束しないが、98%は、ほぼ収束すると思われる。そして学習デー タが増加した場合、全体に占める割合は少ないが、たえず新しい 種類の-gramの組み合わせが出現していることがわかる。
これは、言語モデルとしてマルコフモデルを選択したときの妥当 性に関して、滅多に出現しない言語現象は、あえてモデルに適合 させる必要がないと判断すべきであると考えられる。
X線CT所見作成の文章と新聞記事を比較すると、音節・漢字仮名、 いずれの場合もエントロピーが低く、かつ少ない学習データ量で収 束している。これらからX線CTの所見作成の文章は新聞記事と比較 して文章が単純であると言える。
新聞記事におけるマルコフ連鎖確率の収束性を研究するために使用し た形態素解析プログラムは単語認定率で約95%の精度しかないため、 人手によって文節単位に区切られた場合のマルコフ連鎖確率の値と、 ここで得られた値に差がある可能性がある。特に品詞に関しては、 trigramの有効性が見られなかった。これは、品詞の定義が 人によって異なる(例えば形容動詞)などの問題点もあるが、形態 素解析の精度の問題と関連している可能性があり、今後検討が必要 である。
X線CT所見作成の文章では、漢字かなと単語の種類の 数がほぼ同じにも関わらず、単語のほうがエントロピー は高く、かつカバー率の収束性も低かった。また、 ATRの国際会議における単語のtrigramの収束性は非常 に悪かった。これらの原因は、日本語では単語 の境界が曖昧であることに起因している可能性がある。 したがって、日本語において使用される言語モデルと しては、単語のtrigramより漢字かなのtrigramのほう が妥当であるかもしれない。また、日本語における単 語の意味を今後考慮する必要がある。
図 3.9 から、データ量が増加するに伴いエントロ ピーは増加していて、安定な値になっていない。したがって信頼 性のある-gramの値を得るにはデータ量は少ないことがわかる。