この実験ではHMM+Viterbiサーチ[2]を基本アルゴリズムに した。音響尤度の計算には5240単語発声を用いて学習した混合連続 分布型連続HMMによる音素モデルを用い、言語モデルとしてodd4000 で学習した状態数2,4,8のErgodic HMMを使用した。また言語モデル と音響モデルの結合の際、Ergodic HMMから得られる値を16倍 してViterbi algorithmで計算された対数音響尤度の値に加えた。 認識実験ではテストデータとして学習データと同一タスクの38文を 用いた。なお同一のテストデータを使ってtext-open および text-closed dataの文音声認識実験を行なうために、text-openの 実験にはodd4000で学習したErgodic HMMのパラメータを使用し、 text-closedの実験ではodd4000で学習したパラメータを初期値とし、 odd4000にテストデータ38文を加えた4038文を再び学習させた Ergodic HMMのパラメータを使用した。その他の実験条件を表 4に示す。
基本アルゴリズム | continous mixture HMM + |
word Ergodic HMM + beam search | |
音素モデル数 | 52音素 |
音素音響モデル | 4状態3ループ混合分布型HMM |
混合数は音素ごとに異なる。 | |
継続時間長制御なし。 | |
話者 | 男性アナウンサー1名(MAU) |
音響パラメータ | log パワー + 16次LPCケプストラム |
log パワー + 16次LPCケプストラム | |
音響分析条件 | サンプリング周期 12kHz |
フレーム窓長 20ms | |
フレーム周期 5ms | |
ビーム幅 | 4096 |
認識語彙数 | 435単語 |
テストデータ | 同一話者発声(MAU) |
38文 |