従来の多くの文(文節)音声認識システムでは認識単位として音 節や音素を選択している[58],[40]。しかし、現実 の音声データでは音素境界が曖昧な音素が多い。したがって、高 い認識性能を目指す場合、長い認識単位が有利であると考えられ る。したがって、ここでは認識単位として単語を選択した。ただ し、このデータベースでは、文節出現率が高いものから上位 100 文節は単語として登録してある。しかし、単語を認識単位とした 場合、単語のHMMの学習の時に、大量の単語発声の音声データが必 要であること、また認識のときに、HMMのパラメータの記憶のため に多くのメモリー空間が必要であることなどから、従来はあまり 多く行なわれてきていない[45]。
そこで、本節では学習データを減らすため、1つの単語のHMMの学 習に1つの単語発声の音声データのみ使用することにした。つま りX線CTの所見作成入力用の音声ワードプロセッサーを使用する人 に、事前に3000単語を1回発声してもらい、このデータで単語の HMMを学習した。そして、少ない音声データで精度の高いHMMのパ ラメータを推定するためにFuzzy-VQ HMM[4]を用いた。コー ドブックサイズは256である。また認識時においてHMMのパラメー タの記憶のためのメモリー空間を減らすために、単語のHMMのモデ ルは全て4状態3ループとした。
言語モデルには単語のbigramのみをもちいた。bigramの連鎖確率値 の計算には、今まで入手できたX線CTの所見作成の全文章、71198単 語から計算した。また、連鎖確率値が0.0である場合は deleted-interpolation[7]などの平滑化はおこ なわず、に置き換えた。
実験に用いた認識アルゴリズムの基本は、単語のHMMにViterbiサー チ(One-pass DP)に単語のbigramとした。また実験ではHMMの累積尤度を 複数(個)持たせることによって複数の候補を出力するN-bestサーチを行なっ た。