next up previous contents
次へ: 文節音声認識実験 上へ: 単語のHMMとbigramを利用した文節音声認識 戻る: 単語のHMMとbigramを利用した文節音声認識   目次

認識単位を単語とした文節音声認識

  1. 音響モデル

    従来の多くの文(文節)音声認識システムでは認識単位として音 節や音素を選択している[58],[40]。しかし、現実 の音声データでは音素境界が曖昧な音素が多い。したがって、高 い認識性能を目指す場合、長い認識単位が有利であると考えられ る。したがって、ここでは認識単位として単語を選択した。ただ し、このデータベースでは、文節出現率が高いものから上位 100 文節は単語として登録してある。しかし、単語を認識単位とした 場合、単語のHMMの学習の時に、大量の単語発声の音声データが必 要であること、また認識のときに、HMMのパラメータの記憶のため に多くのメモリー空間が必要であることなどから、従来はあまり 多く行なわれてきていない[45]。

    そこで、本節では学習データを減らすため、1つの単語のHMMの学 習に1つの単語発声の音声データのみ使用することにした。つま りX線CTの所見作成入力用の音声ワードプロセッサーを使用する人 に、事前に3000単語を1回発声してもらい、このデータで単語の HMMを学習した。そして、少ない音声データで精度の高いHMMのパ ラメータを推定するためにFuzzy-VQ HMM[4]を用いた。コー ドブックサイズは256である。また認識時においてHMMのパラメー タの記憶のためのメモリー空間を減らすために、単語のHMMのモデ ルは全て4状態3ループとした。

  2. 言語モデル

    言語モデルには単語のbigramのみをもちいた。bigramの連鎖確率値 の計算には、今まで入手できたX線CTの所見作成の全文章、71198単 語から計算した。また、連鎖確率値が0.0である場合は deleted-interpolation[7]などの平滑化はおこ なわず、$\exp(-1000.0)$に置き換えた。

  3. 単語のbigramを用いた文節音声認識アルゴリズム

    実験に用いた認識アルゴリズムの基本は、単語のHMMにViterbiサー チ(One-pass DP)に単語のbigramとした。また実験ではHMMの累積尤度$G(l,w,i)$を 複数($N$個)持たせることによって複数の候補を出力するN-bestサーチを行なっ た。



Jin'ichi Murakami 平成13年1月5日