X線CT所見作成の文章は大きくわけて正常所見と異常所見に分類さ れる。そして異常所見は正常所見と比較すると文章が複雑なため、 認識率が低くなることが知られている[11]。そこで実験は、 bigramの連鎖確率を計算するのに使用したテキストを発声した音声 データ(text-closed data)とbigramの連鎖確率を計算するのに使用 しなかったテキストを発声した音声データ(text-open data)につ いて、各々異常所見と正常所見について合計4つの条件で行なった。 実験は平均100文節行なった。
| 使用アルゴリズム | word HMM + Viterbi search |
| + word bigram | |
| 特定話者認識 | |
| 認識単位 | word |
| 語彙数 | 約3000 |
| 学習データ | 単語発声 |
| 言語情報 | 単語bigram |
| 音響パラメータ | log power + 16次LPCcepstrum |
| + |
|
| 距離尺度 | 簡易マハラノビス |
| VQコード数 | 256 |
| 単語モデル | 4-state 3-loop Fuzzy-VQ HMM |
| フレーム窓長 | 18ms |
| フレーム周期 | 9ms |
| ファジネス | 1.5 |
| 近傍数 | 5 |
| サンプリング周波数 | 12kHz |
| HMMとbigramの | 32 |
| 結合値 |