next up previous
次へ: 文実験結果 上へ: 文音声認識への適用 戻る: 文音声認識への適用

文音声認識の実験条件


この実験ではHMM+Viterbiサーチ[2]を基本アルゴリズムに した。音響尤度の計算には5240単語発声を用いて学習した混合連続 分布型連続HMMによる音素モデルを用い、言語モデルとしてodd4000 で学習した状態数2,4,8のErgodic HMMを使用した。また言語モデル と音響モデルの結合の際、Ergodic HMMから得られる値を16倍 してViterbi algorithmで計算された対数音響尤度の値に加えた。 認識実験ではテストデータとして学習データと同一タスクの38文を 用いた。なお同一のテストデータを使ってtext-open および text-closed dataの文音声認識実験を行なうために、text-openの 実験にはodd4000で学習したErgodic HMMのパラメータを使用し、 text-closedの実験ではodd4000で学習したパラメータを初期値とし、 odd4000にテストデータ38文を加えた4038文を再び学習させた Ergodic HMMのパラメータを使用した。その他の実験条件を表 4に示す。




表 4: 文音声認識の実験条件
基本アルゴリズム continous mixture HMM +
  word Ergodic HMM + beam search
音素モデル数 52音素
音素音響モデル 4状態3ループ混合分布型HMM
  混合数は音素ごとに異なる。
  継続時間長制御なし。
話者 男性アナウンサー1名(MAU)
音響パラメータ log パワー + 16次LPCケプストラム
  $ + \Delta $log パワー + 16次LPC$\Delta $ケプストラム
音響分析条件 サンプリング周期 12kHz
  フレーム窓長 20ms
  フレーム周期 5ms
ビーム幅 4096
認識語彙数 435単語
テストデータ 同一話者発声(MAU)
  38文






Jin'ichi Murakami 平成13年10月5日