next up previous
次へ: 結果 上へ: 実験 戻る: DB作成

単語音声認識


単語音声認識には、HTK[1]を利用した。音素モデルは、ATRのC set 女 性話者32名, 1600 文から不特定話者モデルを作り、次に話者ごとに100単語の 連結学習をしてHMMのモデルを作成した。分析パラメータの条件を表 1に示す。



表 1: 音素モデルの学習条件
音響モデル 4状態3ループ混合分布型HMM
混合数 10 混合 full covariance
音響パラメータ log power + 12次 FFT melcep +
  $\Delta $ log power + 12次 $\Delta $ FFT melcep
フレーム長 5ms
フレーム窓長 25ms
sampling 周波数 16KHz





平成15年9月30日