next up previous
次へ: 実験結果 上へ: 実験 戻る: 実験

実験条件

単語音声認識を行うツールとして、HTK[3]を使用する。 単語音声認識は表[*]に示される実験条件のもとで行う。


表: 実験条件
標本周波数 16kHz 学習DB 2620単語
分析窓 Hamming窓 音素数 約15500
分析窓長 20ms 母音数 約8000
フレーム周期 5ms
特徴ベクトル 16次MFCC+
16次$\Delta$MFCC+ 評価DB 2620単語
対数パワー+ 音素数 約15500
$\Delta$対数パワー(計34次) 母音数 約8000
音響モデル 3ループ4状態
半連続分布型
混合分布数 256

実験には、ATRの単語発話データベースAsetの20話者を使用する。 このデータベースAsetには、 話者ごとに1モーラから7モーラまでの単語 5240単語の音声波形データが含まれている。 また、この音声波形データには、人手によって付与された 音素境界位置情報を付与してある。 実験には、 このデータベースを奇数番と偶数番に分け、奇数を学習データ、偶 数を評価データとして使用する。

音素HMMの混合ガウス分布には、Diagonal-covariance(以下、Diagonal) とFull-covariance(以下、Full)の2種類を使用 し実験を行う。 Diagonalにおいては、20話者に対し単語音声認識を行い、 Fullにおいては、mauとmmyの2話者に対し単語音声認識を行 い、モーラ情報の有効性を調査する。


next up previous
次へ: 実験結果 上へ: 実験 戻る: 実験
平成14年4月24日