認識単位を単語とした文節音声認識

次へ: 言語モデル 上へ: 単語のHMMとbigramを利用した文節音声認識 戻る: 単語のHMMとbigramを利用した文節音声認識

認識単位を単語とした文節音声認識

従来の多くの文（文節）音声認識システムでは認識単位として音節や音素を選択している[12][3]。しかし、現実の音声データでは音素境界が曖昧な音素が多い。したがって、高い認識性能を目指す場合、長い認識単位が有利であると考えられる。したがって、ここでは認識単位として単語を選択した。しかし、単語を認識単位とした場合、単語のHMMの学習の時に、大量の単語発声の音声データが必要であること、また認識のときに、HMMのパラメータの記憶のために多くのメモリー空間が必要であることなどから、従来はあまり多く行なわれてきていない[6]。そこで、本論文では学習データを減らすため、１つの単語のHMMの学習に１つの単語発声の音声データのみ使用することにした。つまりX線CT の所見作成入力用の音声ワードプロセッサーを使用する人に、事前に3000単語を１回発声してもらい、このデータで単語のHMMを学習した。そして、少ない音声データで精度の高いHMMのパラメータを推定するためにFuzzy-VQ HMMを用いた。また認識時においてHMMのパラメータの記憶のためのメモリー空間を減らすために、単語の HMMのモデルは全て4状態3ループとした。

Jin'ichi Murakami 平成13年10月5日