実験条件

次へ: 実験結果 上へ: 実験 戻る: 実験

実験条件

単語音声認識を行うツールとして、HTK[3]を使用する。単語音声認識は表に示される実験条件のもとで行う。

表: 実験条件
標本周波数	16kHz	学習DB	2620単語
分析窓	Hamming窓	音素数	約15500
分析窓長	20ms	母音数	約8000
フレーム周期	5ms
特徴ベクトル	16次MFCC+
	16次 $\Delta$ MFCC+	評価DB	2620単語
	対数パワー+	音素数	約15500
	$\Delta$ 対数パワー(計34次)	母音数	約8000
音響モデル	３ループ４状態
	半連続分布型
混合分布数	256

実験には、ATRの単語発話データベースAsetの20話者を使用する。このデータベースAsetには、話者ごとに1モーラから7モーラまでの単語 5240単語の音声波形データが含まれている。また、この音声波形データには、人手によって付与された音素境界位置情報を付与してある。実験には、このデータベースを奇数番と偶数番に分け、奇数を学習データ、偶数を評価データとして使用する。

音素HMMの混合ガウス分布には、Diagonal-covariance(以下、Diagonal) とFull-covariance(以下、Full)の2種類を使用し実験を行う。 Diagonalにおいては、20話者に対し単語音声認識を行い、 Fullにおいては、mauとmmyの2話者に対し単語音声認識を行い、モーラ情報の有効性を調査する。

次へ: 実験結果 上へ: 実験 戻る: 実験

平成14年4月24日