next up previous contents
次へ: 追加実験 上へ: 考察 戻る: 母音と子音の認識精度の違いについて   目次

特定話者音声認識との比較

特定話者は,一般的に学習データが少なくても比較的高い認識精度が得られる. そこで,話者適応に用いた164単語・82単語を特定話者の学習データとして特定 話者HMMを作成し,混合HMMの認識精度と比較を行う.

偏りを持つ学習データは含まれる音素の種類が少ないため,実験には 164単語・82単語の共に通常の学習データを用いる. 特定話者の実験結果を表15に示す.参考として2,620単語で学習した 特定話者の結果を同時に示す.


表 15: 特定話者HMMの単語音声認識の誤り率
学習データ量 2,620単語 164単語 82単語
mau 95.80% 84.81% 65.69%
  (2510/2620) (2222/2620) (1721/2620)
mmy 95.27% 84.96% 62.79%
  (2496/2620) (2226/2620) (1645/2620)
mnm 95.08% 83.36% 64.89%
  (2491/2620) (2184/2620) (1700/2620)
faf 94.89% 85.31% 67.10%
  (2486/2620) (2235/2620) (1758/2620)
fms 95.69% 81.91% 61.91%
  (2507/2620) (2146/2620) (1622/2620)
ftk 95.73% 83.40% 65.76%
  (2508/2620) (2185/2620) (1723/2620)
平均 95.41% 83.96% 64.69%
  (14998/15720) (13198/15720) (10169/15720)

結果より,164単語・82単語の両方において,混合HMMの方が認識精度が高い. また,特定話者の認識精度が164単語から82単語の間で大きく低下しているため, 認識する話者の音声が少ないほど話者適応として用いることが有効である.



平成20年3月11日