next up previous
次へ: 自由発話の音響的な特徴の考察 上へ: 自由発話の音響的な特徴 戻る: 融合ラベルの付与率から見た自由発話の音声の崩れ

HMMによる音素認識率から見た自由発話の音声の崩れ

従来の音声認識アルゴリズムにおける認識率の各発話様式の差を調 べるために音素の認識実験を行なった。ただし、学習データとテス トデータにおいて融合ラベルを付与された音素は実験から除いた。 認識アルゴリズムには、混合連続分布型HMMを用い、学習データに は、単語発声から視察によって切り出した音素を使用した。その他 の実験条件を表3に示す。実験は、 同一話者の単語発声と、文節単位の朗読発声と、文単位の朗読発声、 および自由発話の、4種類のデータで行なった。

各発声様式における音素認識誤り率を図 3に、各音素毎の音素認識率を 表4 に示す。この結果から次のよ うな傾向が見られる。

  1. 単語発声、文節単位の朗読発声、文単位の朗読発声、自由発 話の順で音素認識率が低下している。

  2. 自由発話と朗読発話の認識率の個人差がかなりあると思われる。 アナウンサーMTKは自由発話の音素認識率が朗読発話の音素認識と 比較して約60%程度しか増加しないのに対し、アナウンサーFKNで は約140%も増加している。

  3. 自由発話では、/i/や/g/の音素の認識率の低下が著しい。

  4. /k/,/s/の認識率は、発話様式に、あまり差がない。


表 3: 音素認識の実験条件
認識対象 32音素
サンプリング周波数 12kHz
話者 男性アナウンサー
学習データ 単語音声
音響パラメータ log power + 16次LPCcepstrum
  + $\Delta$log power + 16次$\Delta$cepstrum
フレーム窓長 20ms
フレーム周期 5ms
音素モデル 3state 10 mixture Gaussian
  continuous HMM

図 3: 発話様式の違いによる音素認識誤り率の変化
\begin{figure}\begin{center}
\fbox{\epsfile{file=figure3.ps,width=70mm}}\end{center}\end{figure}



Jin'ichi Murakami 平成13年10月5日