HMMによる音素認識率から見た自由発話の音声の崩れ

次へ: 自由発話の音響的な特徴の考察 上へ: 自由発話の音響的な特徴 戻る: 融合ラベルの付与率から見た自由発話の音声の崩れ

HMMによる音素認識率から見た自由発話の音声の崩れ

従来の音声認識アルゴリズムにおける認識率の各発話様式の差を調べるために、融合ラベルを除いて音素の認識実験を行なった。認識アルゴリズムには、連続分布HMMを用い、学習データには、単語発声から視察によって切り出した音素を使用した。その他の実験条件を表4に示す。実験は、同一話者の単語発声と、文節単位の朗読発声と、文単位の朗読発声、および自由発話の、４種類のデータで行なった。

各発声様式における音素認識誤り率を図 2に、各音素毎の音素認識率を図 3 および付録表6 に示す。この結果から次のような傾向が見られる。

単語発声、文節単位の朗読発声、文単位の朗読発声、自由発話の順で音素認識率が低下している。（この実験では誤り率は２倍、２倍、２倍と倍増している。）
自由発話の場合、/i/や/h/や/g/の認識率の低下が著しい。
/k/,/s/,/sh/,/r/の認識率は、あまり差がない。

**表 4:** 実験の認識条件
認識対象	32音素
サンプリング周波数	12kHz
話者	男性アナウンサー
学習データ	単語音声
使用パラメータ	16th order LPC cepstrum + power
	+delta power + 16th order delta cepstrum
フレーム窓長	20ms
フレーム周期	5ms
音素モデル	3state 10 mixture Gaussian
	continuous HMM

**図 2:** 音素認識誤り率
$\begin{figure}\begin{center} \fbox{\epsfile{file=figure2.eps,width=75mm}}\end{center}\end{figure}$

**図 3:** 各音素認識率
$\begin{figure}\begin{center} \fbox{\epsfile{file=figure3.eps,width=75mm}}\end{center}\end{figure}$

Jin'ichi Murakami 平成13年10月5日