next up previous
次へ: 自由発話の音響的な特徴の考察 上へ: 自由発話の音響的な特徴 戻る: 融合ラベルの付与率から見た自由発話の音声の崩れ

HMMによる音素認識率から見た自由発話の音声の崩れ

従来の音声認識アルゴリズムにおける認識率の各発話様式の差を調 べるために、融合ラベルを除いて音素の認識実験を行なった。認識 アルゴリズムには、連続分布HMMを用い、学習データには、単語発 声から視察によって切り出した音素を使用した。その他の実験条件 を表4に示す。実験は、同一話者の 単語発声と、文節単位の朗読発声と、文単位の朗読発声、および自 由発話の、4種類のデータで行なった。

各発声様式における音素認識誤り率を図 2に、各音素毎の音素認識率を図 3 および 付録 表6 に示す。 この結果から次のような傾向が見られる。

  1. 単語発声、文節単位の朗読発声、文単位の朗読発声、自由発 話の順で音素認識率が低下している。(この実験では誤り率は2倍、 2倍、2倍と倍増している。)
  2. 自由発話の場合、/i/や/h/や/g/の認識率の低下が著しい。
  3. /k/,/s/,/sh/,/r/の認識率は、あまり差がない。


表 4: 実験の認識条件
認識対象 32音素
サンプリング周波数 12kHz
話者 男性アナウンサー
学習データ 単語音声
使用パラメータ 16th order LPC cepstrum + power
  +delta power + 16th order delta cepstrum
フレーム窓長 20ms
フレーム周期 5ms
音素モデル 3state 10 mixture Gaussian
  continuous HMM

図 2: 音素認識誤り率
\begin{figure}\begin{center}
\fbox{\epsfile{file=figure2.eps,width=75mm}}\end{center}\end{figure}

図 3: 各音素認識率
\begin{figure}\begin{center}
\fbox{\epsfile{file=figure3.eps,width=75mm}}\end{center}\end{figure}



Jin'ichi Murakami 平成13年10月5日