単語音声認識

次へ: 結果 上へ: 実験 戻る: DB作成

単語音声認識には、HTK[1]を利用した。音素モデルは、ATRのC set 女性話者32名, 1600 文から不特定話者モデルを作り、次に話者ごとに100単語の連結学習をしてHMMのモデルを作成した。分析パラメータの条件を表 1に示す。

**表 1:** 音素モデルの学習条件
音響モデル	4状態3ループ混合分布型HMM
混合数	10 混合 full covariance
音響パラメータ	log power + 12次 FFT melcep +
	$\Delta$ log power + 12次 $\Delta$ FFT melcep
フレーム長	5ms
フレーム窓長	25ms
sampling 周波数	16KHz

平成15年9月30日