次へ: -gram を用いた音声認識 上へ: 日本語の-gramによるモデル化 戻る: ATRの国際会議における単語trigramの値の収束率目次

まとめ

ここでは、新聞記事およびX線CT所見作成およびATRの国際会議の申し込みの文章において、学習データ量に対する音声・漢字仮名・品詞・単語のマルコフ連鎖確率値の収束率を求めた。これらの結果から、以下のことが示される。

エントロピーとカバー率
エントロピーとカバー率の収束性を比較すると、全てのデータにおいてエントロピーはカバー率よりも少ない学習データ量で収束することが示された。これは学習データ量に対するマルコフ連鎖確率値の変化について研究する場合、エントロピーだけでなく、カバー率も考察する必要があることを意味していると思われる。
カバー率
カバー率のデータを見ると、学習データが増加した場合、100%は収束しないが、98%は、ほぼ収束すると思われる。そして学習データが増加した場合、全体に占める割合は少ないが、たえず新しい種類の-gramの組み合わせが出現していることがわかる。
これは、言語モデルとしてマルコフモデルを選択したときの妥当性に関して、滅多に出現しない言語現象は、あえてモデルに適合させる必要がないと判断すべきであると考えられる。
新聞記事とX線CT所見作成の比較
X線CT所見作成の文章と新聞記事を比較すると、音節・漢字仮名、いずれの場合もエントロピーが低く、かつ少ない学習データ量で収束している。これらからX線CTの所見作成の文章は新聞記事と比較して文章が単純であると言える。
形態素解析プログラムの精度
新聞記事におけるマルコフ連鎖確率の収束性を研究するために使用した形態素解析プログラムは単語認定率で約95%の精度しかないため、人手によって文節単位に区切られた場合のマルコフ連鎖確率の値と、ここで得られた値に差がある可能性がある。特に品詞に関しては、 trigramの有効性が見られなかった。これは、品詞の定義が人によって異なる（例えば形容動詞）などの問題点もあるが、形態素解析の精度の問題と関連している可能性があり、今後検討が必要である。
日本語における単語の精度
X線CT所見作成の文章では、漢字かなと単語の種類の数がほぼ同じにも関わらず、単語のほうがエントロピーは高く、かつカバー率の収束性も低かった。また、 ATRの国際会議における単語のtrigramの収束性は非常に悪かった。これらの原因は、日本語では単語の境界が曖昧であることに起因している可能性がある。したがって、日本語において使用される言語モデルとしては、単語のtrigramより漢字かなのtrigramのほうが妥当であるかもしれない。また、日本語における単語の意味を今後考慮する必要がある。
ATRの国際会議における単語trigramの値の信頼性
図 3.9 から、データ量が増加するに伴いエントロピーは増加していて、安定な値になっていない。したがって信頼性のある-gramの値を得るにはデータ量は少ないことがわかる。

Jin'ichi Murakami 平成13年1月5日