X線CT所見作成の文章は大きくわけて正常所見と異常所見に分類さ れる。そして異常所見は正常所見と比較すると文章が複雑なため、 認識率が低くなることが知られている[11]。そこで実験は、 bigramの連鎖確率を計算するのに使用したテキストを発声した音声 データ(text-closed data)とbigramの連鎖確率を計算するのに使用 しなかったテキストを発声した音声データ(text-open data)につ いて、各々異常所見と正常所見について合計4つの条件で行なった。 実験は平均100文節行なった。
使用アルゴリズム | word HMM + Viterbi search |
+ word bigram | |
特定話者認識 | |
認識単位 | word |
語彙数 | 約3000 |
学習データ | 単語発声 |
言語情報 | 単語bigram |
音響パラメータ | log power + 16次LPCcepstrum |
+ log power | |
距離尺度 | 簡易マハラノビス |
VQコード数 | 256 |
単語モデル | 4-state 3-loop Fuzzy-VQ HMM |
フレーム窓長 | 18ms |
フレーム周期 | 9ms |
ファジネス | 1.5 |
近傍数 | 5 |
サンプリング周波数 | 12kHz |
HMMとbigramの | 32 |
結合値 |