next up previous
次へ: 初期モデルについて 上へ: 考察 戻る: 学習データ量について

文音声認識実験の結果について


文音声認識の実験は、規模が小さいので再現性について確かめる必 要があるが、現在の結果から考えられることを述べる。Text-open data、text-closed data両方に対して、言語モデルとしてErgodic HMMを用いたほうが、用いない場合より高い認識性能を示した。こ の点ではErgodic HMMは一般的のある言語モデルをある程度獲得し ているといえる。しかし、認識誤りを生じた文を見ると非文と思わ れる文が多いことから、8状態のErgodic HMMでは十分に言語情報を 獲得しているとは言えない。今後状態数を増加させたときの認識率 の変化を追跡する必要があろう。また、Ergodic HMMと単語bigram を比較すると、text-closed dataの実験ではErgodic HMMは単語 bigramに及ばなかったが、text-open dataの実験では単語bigramと 同等か、やや上回る値が得られた。text-openの実験では学習デー タとテストデータの選択の方法により、認識性能が大きく異なる可 能性があるので、この実験だけからでは明言できないが、Ergodic HMMはbigramより言語モデルとして優れている可能性がある。最後 に、音響尤度に対する言語尤度の重み(現在16)はErgodic HMMを 言語モデルとしたとき認識性能が最大になるように実験的に選んだ 値であるため、今後理論的な根拠を与える必要がある。




Jin'ichi Murakami 平成13年10月5日