話者適応HMMを用いた音素 | ||||
上位1(k) | 上位2(k s) | 上位(k s r t) | 上位6(ksrtmg) | |
mau | 90.65% | 90.73% | 90.19% | 89.08% |
(2375/2620) | (2377/2620) | (2363/2620) | (2334/2620) | |
mmy | 90.15% | 89.47% | 87.67% | 87.33% |
(2362/2620) | (2344/2620) | (2297/2620) | (2288/2620) | |
mnm | 88.21% | 87.94% | 87.71% | 88.63% |
(2311/2620) | (2304/2620) | (2298/2620) | (2322/2620) | |
faf | 89.54% | 89.77% | 89.27% | 88.66% |
(2346/2620) | (2352/2620) | (2339/2620) | (2323/2620) | |
fms | 88.24% | 87.37% | 86.95% | 86.37% |
(2312/2620) | (2289/2620) | (2278/2620) | (2263/2620) | |
ftk | 90.50% | 90.50% | 89.81% | 89.39% |
(2371/2620) | (2371/2620) | (2353/2620) | (2342/2620) | |
平均 | 89.54% | 89.30% | 88.60% | 88.24% |
(14077/15720) | (14037/15720) | (13928/15720) | (13872/15720) |
不特定話者より高い認識精度が得られたのは,上位1位(k)と上位2位(k s)となっ た.本研究の学習方法では,学習データ内の音素数が30個未満の音素が,認識精 度が低下する傾向となっている.ここで用いた子音では``k''のみ30個以上なので, 話者適応HMMを用いる子音を増やすほど,認識精度が低下する結果となった.