next up previous
次へ: 自由発話認識の問題点 上へ: 考察 戻る: 音響尤度と言語の連鎖確率の結合値

学習データとtext-open dataの認識率

今回の実験で用いたテキストデータベースのデータ量に対するエン トロピーと``頻度別出現率''の変化を調査した。 なお``頻度別出 現率'' は次のように定義している。

``頻度別出現率60%''が示す値は、学習データの中で60%をカバー するのに必要な最小のマルコフ連鎖確率の種類の数である。また ``頻度別出現率100%''が示す値は、学習データ量全てをカバーす るのに必要なマルコフ連鎖の種類の数である。

調査は頻度別出現率60%、頻度別出現率80%、頻度別出現率100%、 およびエントロピーの合計4つの値で行なった。この結果を図  5 に示す。この図から、データ量が増加するにしたがい、 エントロピーも増加していることがわかる。またデータベースの語彙の 58.8%(3486/5933)は1回しか出現していなかった。また、単語 trigramの全ての組合せの中の77.9%(60847/78138)は1回しか出 現していなかった。これらの結果はデータ量の不足を示している。 そのため、trigram の値の信頼性が低く、 text-open data とtext-closed dataの認識性 能に大きな差が生じたと考えている。

図 5: 学習データの入力データに対するエントロピーおよび頻度別出現率の変化
\begin{figure}\fbox{ \epsfile{file=figure4.eps,width=70mm}}\end{figure}





Jin'ichi Murakami 平成13年10月4日