認識実験ではduration control とN-bestのサーチ幅を変化させて 行なった。また、単語のHMMの学習のデータを増加させた場合の実 験も行なった。これらの実験の条件を表 4.1に示す。その他の実験条件は表 4.2にまとめた。なおduration controlは同一話者の単語発声の3回分のデータの平均発声時間と 分散を測定し、この値からガウス分布を計算し、duration control に使用した。(単語のマッチングが終了してからduration controlの尤度を乗じた。)
X線CT所見作成の文章は大きくわけて正常所見と異常所見に分類される。そ して異常所見は正常所見と比較すると文章が複雑なため、認識率が低くな ることが知られている[86]。そこで実験は、bigramの連鎖確率 を計算するのに使用したテキストを発声した音声データ(text-closed data)とbigramの連鎖確率を計算するのに使用しなかったテキストを発声し た音声データ(text-open data)について、各々異常所見と正常所見につい て合計4つの条件で行なった。実験は平均100文節で行なった。例文は 図3.5参照。
使用アルゴリズム | word HMM + Viterbi search |
+ word bigram | |
特定話者認識 | |
話者数 | 1 |
発話様式 | 文節発声 |
認識単位 | word |
語彙数 | 約3000 |
学習データ | 単語発声 |
言語情報 | 単語bigram |
音響パラメータ | log power + 16次LPCcepstrum |
+ log power | |
距離尺度 | 簡易マハラノビス |
VQコード数 | 256 |
単語モデル | 4-state 3-loop Fuzzy-VQ HMM |
フレーム窓長 | 18ms |
フレーム周期 | 9ms |
ファジネス | 1.5 |
近傍数 | 5 |
サンプリング周波数 | 12kHz |
HMMとbigramの | 32 |
結合値 |