ここでは自由発話と朗読発話の差を、連続音素認識実験をして正解率(Phone Correct)および認識精度(Phone Accuracy)[21],[20]で評価した。 特定話者の同一発話様式の認識実験を行なうために、同一話者の同一発話様式の音 声データの、文番号の奇数番目を学習データに偶数番目を評価データにした。学習 プログラムには主に HTK Software Tools[20]を使用した。特徴パラメータ にはLPCケプストラムを使用し、HMMには混合連続分布型を用いた。表 5 に実験条件を示す。
認識対象 | 26 音素 |
サンプリング周波数 | 12kHz |
話者 | 男性のナレータ |
学習データ | 同一発話様式 |
音響パラメータ | log power + 16次LPCcepstrum |
+ log power + 16次cepstrum | |
フレーム窓長 | 20ms |
フレーム周期 | 5ms |
LPC分析 | 16次 |
打ち切り次数 | 16次 |
音素モデル | 4-state 3-loop 3 mixture |
Gaussian continuous HMM (diagoal) |
認識実験は以下のようにしておこなった。