next up previous contents
次へ: 実験結果 上へ: 評価実験 戻る: 評価データと学習データ   目次

実験条件

本実験では単語音声認識ツールのHTKを使用する.

また,特徴パラメータにはMFCCとFBANKとMELSPECを使用する.単純法とマルチパ ス法のその他の実験環境は表2にまとめる. また,PMC法のその他の実験環境を表3にまとめる.

MFCCを用いた実験ではMFCC,対数パワーを,FBANKを用いた 実験ではFBANK,対数パワーを,MELSPECを用いた実験ではMELSPEC, 対数パワーをそれぞれ別の多次元ガウス分布で表現する.
実験条件はMFCCとFBANKとMELSPECで同一になるように混合分布数を決定し ている.なお,特徴パラメータの次数は同一にするのが困難であるので同じではな い.

実験でのパラメータの再推定において,データ不足により作成 できない音素HMMが存在する場合,混合分布数がMFCC 4,対数パワー 2で作成でき ない音素HMMはMFCC 2,対数パワー 1にする.混合分布数が MFCC 2,対数パワー 1で作成できない音素HMMはMFCC 1,対数パワー 1にする.混合数を MFCC 1,対数パワーにしても作成できない音素HMMは実験には用いない.FBANKと MELSPECも同様にして作成できない音素の混合分布数を減らしていく.


表 4: 実験条件(単純法,マルチパス法)
基本周波数 16kHz
分析窓 Hamming窓
分析窓長 25ms
フレーム周期 10ms
音響モデル 3ループ4状態
連続分布型
stream数 2



MFCC
特徴パラメータ MFCC(12次)
+対数パワー (計13次)
連続型HMMの (母音・撥音・無音)MFCC 4
初期モデルの ,対数パワー 1
混合分布数
(その他の音素)MFCC 2,対数パワー 1
音素HMMの Diagonal-covariance
共分散行列 Full-covariance



FBANK
特徴パラメータ FBANK(24次)
+対数パワー(計25次)
連続型HMMの (母音・撥音・無音)FBANK 4
初期モデルの ,対数パワー 1
混合分布数
(その他の音素)FBANK 2,対数パワー 1
音素HMMの Diagonal-covariance
共分散行列 Full-covariance



MELSPEC
特徴パラメータ MELSPEC(24次)
+対数パワー(計25次)
連続型HMMの (母音・撥音・無音)MELSPEC 4
初期モデルの ,対数パワー 1
混合分布数
(その他の音素)MELSPEC 2,対数パワー 1
音素HMMの Diagonal-covariance
共分散行列


表 5: 実験条件(PMC法)
基本周波数 16kHz
分析窓 Hamming窓
分析窓長 25ms
フレーム周期 10ms
音響モデル 1ループ2状態
  連続分布型
stream数 2



MFCC
特徴パラメータ MFCC(12次)
+対数パワー (計13次)
連続型HMMの MFCC 1,対数パワー 1
初期モデルの
混合分布数
音素HMMの Diagonal-covariance
共分散行列



FBANK
特徴パラメータ FBANK(24次)
+対数パワー(計25次)
連続型HMMの FBANK 4,対数パワー 1
初期モデルの
混合分布数
音素HMMの Diagonal-covariance
共分散行列




MELSPEC
特徴パラメータ MELSPEC(24次)
+対数パワー(計25次)
連続型HMMの MELSPEC 4,対数パワー 1
初期モデルの
混合分布数
音素HMMの Diagonal-covariance
共分散行列



next up previous contents
次へ: 実験結果 上へ: 評価実験 戻る: 評価データと学習データ   目次
平成19年5月7日