next up previous
次へ: 実験結果 上へ: 単語のHMMとbigramを利用した文節音声認識 戻る: 実験条件

テストデータ

X線CT所見作成の文章は大きくわけて正常所見と異常所見に分類さ れる。そして異常所見は正常所見と比較すると文章が複雑なため、 認識率が低くなることが知られている[11]。そこで実験は、 bigramの連鎖確率を計算するのに使用したテキストを発声した音声 データ(text-closed data)とbigramの連鎖確率を計算するのに使用 しなかったテキストを発声した音声データ(text-open data)につ いて、各々異常所見と正常所見について合計4つの条件で行なった。 実験は平均100文節行なった。

  1. text-closed data の正常所見
  2. text-closed data の異常所見
  3. text-open data の正常所見
  4. text-open data の異常所見


表 5: 文節音声認識の実験条件
使用アルゴリズム word HMM + Viterbi search
  + word bigram
  特定話者認識
認識単位 word
語彙数 約3000
学習データ 単語発声
言語情報 単語bigram
音響パラメータ log power + 16次LPCcepstrum
  + $\Delta$log power
距離尺度 簡易マハラノビス
VQコード数 256
単語モデル 4-state 3-loop Fuzzy-VQ HMM
フレーム窓長 18ms
フレーム周期 9ms
ファジネス 1.5
近傍数 5
サンプリング周波数 12kHz
HMMとbigramの 32
結合値  



Jin'ichi Murakami 平成13年10月5日