偏りを持つ学習データは含まれる音素の種類が少ないため,実験には 164単語・82単語の共に通常の学習データを用いる. 特定話者の実験結果を表15に示す.参考として2,620単語で学習した 特定話者の結果を同時に示す.
学習データ量 | 2,620単語 | 164単語 | 82単語 |
mau | 95.80% | 84.81% | 65.69% |
(2510/2620) | (2222/2620) | (1721/2620) | |
mmy | 95.27% | 84.96% | 62.79% |
(2496/2620) | (2226/2620) | (1645/2620) | |
mnm | 95.08% | 83.36% | 64.89% |
(2491/2620) | (2184/2620) | (1700/2620) | |
faf | 94.89% | 85.31% | 67.10% |
(2486/2620) | (2235/2620) | (1758/2620) | |
fms | 95.69% | 81.91% | 61.91% |
(2507/2620) | (2146/2620) | (1622/2620) | |
ftk | 95.73% | 83.40% | 65.76% |
(2508/2620) | (2185/2620) | (1723/2620) | |
平均 | 95.41% | 83.96% | 64.69% |
(14998/15720) | (13198/15720) | (10169/15720) |
結果より,164単語・82単語の両方において,混合HMMの方が認識精度が高い. また,特定話者の認識精度が164単語から82単語の間で大きく低下しているため, 認識する話者の音声が少ないほど話者適応として用いることが有効である.