従来の音声認識アルゴリズムにおける認識率の各発話様式の差を調 べるために、融合ラベルを除いて音素の認識実験を行なった。認識 アルゴリズムには、連続分布HMMを用い、学習データには、単語発 声から視察によって切り出した音素を使用した。その他の実験条件 を表4に示す。実験は、同一話者の 単語発声と、文節単位の朗読発声と、文単位の朗読発声、および自 由発話の、4種類のデータで行なった。
各発声様式における音素認識誤り率を図 2に、各音素毎の音素認識率を図 3 および 付録 表6 に示す。 この結果から次のような傾向が見られる。
認識対象 | 32音素 |
サンプリング周波数 | 12kHz |
話者 | 男性アナウンサー |
学習データ | 単語音声 |
使用パラメータ | 16th order LPC cepstrum + power |
+delta power + 16th order delta cepstrum | |
フレーム窓長 | 20ms |
フレーム周期 | 5ms |
音素モデル | 3state 10 mixture Gaussian |
continuous HMM |