従来の多くの文(文節)音声認識システムでは認識単位として音節 や音素を選択している[12][3]。しかし、現実の音 声データでは音素境界が曖昧な音素が多い。したがって、高い認識 性能を目指す場合、長い認識単位が有利であると考えられる。した がって、ここでは認識単位として単語を選択した。しかし、単語を 認識単位とした場合、単語のHMMの学習の時に、大量の単語発声の 音声データが必要であること、また認識のときに、HMMのパラメー タの記憶のために多くのメモリー空間が必要であることなどから、 従来はあまり多く行なわれてきていない[6]。そこで、 本論文では学習データを減らすため、1つの単語のHMMの学習に1 つの単語発声の音声データのみ使用することにした。つまりX線CT の所見作成入力用の音声ワードプロセッサーを使用する人に、事前 に3000単語を1回発声してもらい、このデータで単語のHMMを学習 した。そして、少ない音声データで精度の高いHMMのパラメータを 推定するためにFuzzy-VQ HMMを用いた。また認識時においてHMMの パラメータの記憶のためのメモリー空間を減らすために、単語の HMMのモデルは全て4状態3ループとした。