next up previous
次へ: 弱パワー区間を削除したときのパワー分布 上へ: パワー分布 戻る: ラベル情報を利用したときのパワー分布

連続音素認識を利用したときのパワー分布


ここでは、母音の切り出しに連続音素認識を利用したときの パワーの分布を調べた。認識にはHTKを用いた。 HMMの学習条件を表1に示す。




表 1: 音素モデルの学習条件
音響モデル 4状態3ループ混合分布型HMM
混合数 10 混合 full covariance
音響パラメータ log power + 12次 FFT melcep +
  $\Delta $ log power + 12次 $\Delta $ FFT melcep
学習データ ATR C セット文発声データ
話者 女性 32名
データ数 1600 文
フレーム長 5ms
フレーム窓長 25ms
sampling 周波数 16KHz


次に学習したHMMを用いてViterbiサーチを行ない母音区間を切り出した。 このときの/a/のパワーの分布を図2に示す。


図 2: 連続音素認識を利用したときの/a/のパワー分布
\begin{figure}\begin{center}
\fbox{\epsfig{file=figure/hist_a_ir_guide.ps,height=45mm,width=70mm}}\end{center}\end{figure}

2から、連続音素認識をしてもパワーの分布が2つの ピークをもつことがわかる。




平成15年9月30日