実験条件

次へ: 実験手順 上へ: 評価実験 戻る: 音素HMMの作成目次

実験条件

実験条件を表に示す。単語音声認識を行うツールとして、HTK[2]を使用した。実験には、ATRの単語発話データベースAset(5240単語)を使用した。このデータベースに含まれる波形データには、全て人手によって音素境界位置情報を付与してあるハンドラベル付の音声ラベルデータが対になっている。このデータベースを偶数番と奇数番に分け、奇数を学習データ、偶数を評価データとして使用した。2つのデータベース(話者A、話者B)を使いそれぞれ実験を行った。

表: 実験条件
標本周波数	16kHz	学習DB	2620単語
分析窓	Hamming窓	音素数	約15500
分析窓長	20ms	母音数	約8000
フレーム周期	5ms
特徴ベクトル	16次MFCC+
	16次2#2MFCC+	評価DB	2620単語
	対数パワー+	音素数	約15500
	2#2対数パワー(計34次)	母音数	約8000
音響モデル	３ループ４状態
	半連続分布型
混合分布数	256

平成14年4月24日