特定話者音声認識との比較

次へ: 追加実験 上へ: 考察 戻る: 母音と子音の認識精度の違いについて目次

特定話者音声認識との比較

特定話者は，一般的に学習データが少なくても比較的高い認識精度が得られる．そこで，話者適応に用いた164単語・82単語を特定話者の学習データとして特定話者HMMを作成し，混合HMMの認識精度と比較を行う．

偏りを持つ学習データは含まれる音素の種類が少ないため，実験には 164単語・82単語の共に通常の学習データを用いる．特定話者の実験結果を表15に示す．参考として2,620単語で学習した特定話者の結果を同時に示す．

**表 15:** 特定話者HMMの単語音声認識の誤り率
学習データ量	2,620単語	164単語	82単語
mau	95.80%	84.81%	65.69%
	(2510/2620)	(2222/2620)	(1721/2620)
mmy	95.27%	84.96%	62.79%
	(2496/2620)	(2226/2620)	(1645/2620)
mnm	95.08%	83.36%	64.89%
	(2491/2620)	(2184/2620)	(1700/2620)
faf	94.89%	85.31%	67.10%
	(2486/2620)	(2235/2620)	(1758/2620)
fms	95.69%	81.91%	61.91%
	(2507/2620)	(2146/2620)	(1622/2620)
ftk	95.73%	83.40%	65.76%
	(2508/2620)	(2185/2620)	(1723/2620)
平均	95.41%	83.96%	64.69%
	(14998/15720)	(13198/15720)	(10169/15720)

結果より，164単語・82単語の両方において，混合HMMの方が認識精度が高い．また，特定話者の認識精度が164単語から82単語の間で大きく低下しているため，認識する話者の音声が少ないほど話者適応として用いることが有効である．

平成20年3月11日