学習データとtext-open dataの認識率

次へ: 自由発話認識の問題点 上へ: 考察 戻る: 音響尤度と言語の連鎖確率の結合値

学習データとtext-open dataの認識率

今回の実験で用いたテキストデータベースのデータ量に対するエントロピーと``頻度別出現率''の変化を調査した。なお``頻度別出現率'' は次のように定義している。

``頻度別出現率60%''が示す値は、学習データの中で60%をカバーするのに必要な最小のマルコフ連鎖確率の種類の数である。また ``頻度別出現率100%''が示す値は、学習データ量全てをカバーするのに必要なマルコフ連鎖の種類の数である。

調査は頻度別出現率60%、頻度別出現率80%、頻度別出現率100%、およびエントロピーの合計4つの値で行なった。この結果を図 5 に示す。この図から、データ量が増加するにしたがい、エントロピーも増加していることがわかる。またデータベースの語彙の 58.8%(3486/5933)は１回しか出現していなかった。また、単語 trigramの全ての組合せの中の77.9%(60847/78138)は１回しか出現していなかった。これらの結果はデータ量の不足を示している。そのため、trigram の値の信頼性が低く、 text-open data とtext-closed dataの認識性能に大きな差が生じたと考えている。

**図 5:** 学習データの入力データに対するエントロピーおよび頻度別出現率の変化
$\begin{figure}\fbox{ \epsfile{file=figure4.eps,width=70mm}}\end{figure}$

Jin'ichi Murakami 平成13年10月4日