next up previous contents
次へ: 実験結果 上へ: アクセントを用いた単語音声認識 戻る: 学習データと評価データ   目次

実験条件

評価実験は,男性話者3名と女性話者3名で行う.実験には単語音声認識ツールのHTK [11] を使用する.HMMの共分散行列にはDiagonal-covariance(以下,省略形Diagonal)と
Full-covariance(以下,省略形Full)の2種類を使用する.その他の実験条件は表10に示す.stream数は3に設定し,MFCCを用いた実験ではMFCC,ΔMFCC,対数パワーとΔ対数パワーを,FBANKを用いた実験ではFBANK,ΔFBANK,対数パワーとΔ対数パワーをそれぞれ別の多次元ガウス分布で表現する.実験条件はMFCCとFBANKで同一になるように混合分布数を決定している.なお,特徴パラメータの次数は同一にするのが困難であるので同じではない.

Full-covarianceの実験でのパラメータの再推定において,データ不足により作成できない音素HMMが存在する場合,混合分布数がMFCC 4,ΔMFCC 4,対数パワー,Δ対数パワー 2で作成できない音素HMMはMFCC 2,ΔMFCC 2,対数パワー,Δ対数パワー 2にする.混合分布数がMFCC 2,ΔMFCC 2,対数パワー,Δ対数パワー 2で作成できない音素HMMはMFCC 1,ΔMFCC 1,対数パワー,Δ対数パワー 1にする.混合数をMFCC 1,ΔMFCC 1,対数パワー,Δ対数パワー 1にしても作成できない音素HMMは実験には用いない.FBANKも同様にして作成できない音素の混合分布数を減らしていく.


表 10: 実験条件
基本周波数 16kHz
分析窓 Hamming窓
分析窓長 25ms
フレーム周期 10ms
音響モデル 3ループ4状態
  半連続分布型
stream数 3
MFCC
特徴パラメータ MFCC(12次)+ΔMFCC(12次)
  +対数パワー+Δ対数パワー (計26次)
   
連続型HMMの (母音・撥音・無音)MFCC 4,ΔMFCC 4
初期モデルの ,対数パワー,Δ対数パワー 2
混合分布数  
  (その他の音素)MFCC 2,ΔMFCC 2,対数パワー,Δ対数パワー 2
   
半連続型HMMの MFCC 128,ΔMFCC 128,対数パワー,Δ対数パワー 16
混合分布数  
FBANK
特徴パラメータ FBANK(24次)+ΔFBANK(24次)
  +対数パワー+Δ対数パワー (計50次)
   
連続型HMMの (母音・撥音・無音)FBANK 4,ΔFBANK 4
初期モデルの ,対数パワー,Δ対数パワー 2
混合分布数  
  (その他の音素)FBANK 2,ΔFBANK 2,対数パワー,Δ対数パワー 2
   
半連続型HMMの FBANK 128,ΔFBANK 128,対数パワー,Δ対数パワー 16
混合分布数  


next up previous contents
次へ: 実験結果 上へ: アクセントを用いた単語音声認識 戻る: 学習データと評価データ   目次
平成16年4月17日