今回の実験で用いたテキストデータベースのデータ量に対するエン トロピーと``頻度別出現率''の変化を調査した。 なお``頻度別出 現率'' は次のように定義している。
``頻度別出現率60%''が示す値は、学習データの中で60%をカバー するのに必要な最小のマルコフ連鎖確率の種類の数である。また ``頻度別出現率100%''が示す値は、学習データ量全てをカバーす るのに必要なマルコフ連鎖の種類の数である。
調査は頻度別出現率60%、頻度別出現率80%、頻度別出現率100%、 およびエントロピーの合計4つの値で行なった。この結果を図 5 に示す。この図から、データ量が増加するにしたがい、 エントロピーも増加していることがわかる。またデータベースの語彙の 58.8%(3486/5933)は1回しか出現していなかった。また、単語 trigramの全ての組合せの中の77.9%(60847/78138)は1回しか出 現していなかった。これらの結果はデータ量の不足を示している。 そのため、trigram の値の信頼性が低く、 text-open data とtext-closed dataの認識性 能に大きな差が生じたと考えている。