next up previous contents
次へ: 状態共有型HMM 上へ: 単語音声認識精度 戻る: 単語音声認識精度   目次

半連続型HMM

半連続型HMM, MFCC, Diagonalでの単語認識精度を表20に示す. FBANK, Diagonalにおける単語認識精度を表21に示す. MFCC, Fullにおける単語認識精度を表22に示す. FBANK, Fullにおける単語認識精度を表23に示す.


表 20: 半連続型HMM, MFCC, Diagonalの単語音声認識誤り率
基本モデル triphone モーラ アクセント モーラ アクセント
モデル モデル モデル triphoneモデル triphoneモデル
mau 12.10% 3.51% 8.63% 8.28% 4.50% 3.85%
(317/2620) (92/2620) (226/2620) (217/2620) (118/2620) (101/2620)
mmy 12.98% 7.86% 11.03% 8.89% 9.89% 7.48%
(340/2620) (206/2620) (289/2620) (232/2620) (233/2620) (196/2620)
mnm 11.34% 4.69% 9.66% 9.12% 5.50% 4.66%
(297/2620) (123/2620) (253/2620) (239/2620) (144/2620) (122/2620)
faf 10.69% 6.07% 10.84% 9.66% 7.71% 6.26%
(280/2620) (159/2620) (284/2620) (253/2620) (202/2620) (164/2620)
fms 13.21% 4.58% 9.16% 8.28% 5.00% 4.47%
(346/2620) (120/2620) (240/2620) (217/2620) (131/2620) (117/2620)
ftk 11.26% 7.25% 6.95% 7.06% 8.17% 7.71%
(295/2620) (190/2620) (182/2620) (185/2620) (214/2620) (202/2620)
平均 11.81% 5.66% 9.38% 8.54% 6.63% 5.74%
(1875/15720) (890/15720) (1474/15720) (1343/15720) (1042/15720) (902/15720)


表 21: 半連続型HMM, FBANK,Diagonalの単語音声認識誤り率
基本モデル triphone モーラ アクセ ント モーラ アクセント
モデル モデル モデル triphoneモデル triphoneモデル
mau 14.62% 10.80% 10.38% 9.43% 12.21% 12.86%
(383/2620) (283/2620) (272/2620) (247/2620) (320/2620) (337/2620)
mmy 14.12% 9.50% 11.26% 13.29% 11.60% 10.73%
(370/2620) (249/2620) (295/2620) (346/2620) (304/2620) (281/2620)
mnm 13.89% 9.35% 11.64% 11.98% 11.18% 9.96%
(364/2620) (245/2620) (305/2620) (314/2620) (293/2620) (261/2620)
faf 12.21% 7.48% 9.16% 8.74% 8.89% 7.44%
(320/2620) (196/2620) (240/2620) (229/2620) (233/2620) (195/2620)
fms 15.31% 6.26% 10.80% 10.46% 7.86% 7.48%
(401/2620) (164/2620) (283/2620) (274/2620) (206/2620) (196/2620)
ftk 15.23% 12.86% 12.18% 13.32% 16.37% 15.08%
(399/2620) (337/2620) (319/2620) (349/2620) (429/2620) (395/2620)
平均 14.23% 9.38% 10.90% 11.19% 11.35% 10.59%
(2237/15720) (1474/15720) (1714/15720) (1759/15720) (1785/15720) (1665/15720)


表 22: 半連続型HMM, MFCC,Fullの単語音声認識誤り率
基本モデル triphone モーラ アクセ ント モーラ アクセント
モデル モデル モデル triphoneモデル triphoneモデル
mau 11.07% 3.02% 7.52% 6.22% 3.89% 3.36%
(290/2620) (79/2620) (197/2620) (163/2620) (102/2620) (88/2620)
mmy 14.50% 8.28% 11.95% 9.62% 8.85% 7.52%
(380/2620) (217/2620) (313/2620) (252/2620) (232/2620) (197/2620)
mnm 13.40% 5.99% 11.91% 10.61% 5.92% 5.27%
(351/2620) (157/2620) (312/2620) (278/2620) (155/2620) (138/2620)
faf 11.60% 5.57% 9.77% 7.75% 5.95% 4.81%
(304/2620) (146/2620) (256/2620) (203/2620) (156/2620) (126/2620)
fms 14.20% 5.34% 10.95% 8.85% 5.53% 4.50%
(372/2620) (140/2620) (287/2620) (232/2620) (145/2620) (118/2620)
ftk 10.61% 5.69% 6.83% 6.64% 6.72% 6.64%
(278/2620) (149/2620) (179/2620) (174/2620) (176/2620) (174/2620)
平均 12.56% 5.65% 9.82% 8.28% 6.15% 5.35%
(1975/15720) (888/15720) (1544/15720) (1302/15720) (966/15720) (841/15720)


表 23: 半連続型HMM, FBANK,Fullの単語音声認識誤り率
基本モデル triphone モーラ アクセ ント モーラ アクセント
モデル モデル モデル triphoneモデル triphoneモデル
mau 9.16% 2.79% 5.99% 5.08% 4.08% 3.40%
(240/2620) (73/2620) (157/2620) (133/2620) (107/2620) (89/2620)
mmy 16.53% 9.39% 13.40% 14.05% 11.30% 10.30%
(433/2620) (246/2620) (351/2620) (368/2620) (296/2620) (270/2620)
mnm 16.37% 7.60% 13.40% 13.17% 9.66% 7.86%
(429/2620) (199/2620) (356/2620) (345/2620) (253/2620) (206/2620)
faf 8.63% 6.03% 6.64% 5.27% 7.98% 5.42%
(226/2620) (158/2620) (174/2620) (138/2620) (209/2620) (142/2620)
fms 12.10% 5.73% 9.05% 8.13% 8.09% 5.50%
(317/2620) (150/2620) (237/2620) (213/2620) (212/2620) (144/2620)
ftk 10.31% 4.73% 7.02% 5.88% 6.60% 5.04%
(270/2620) (124/2620) (184/2620) (154/2620) (173/2620) (132/2620)
平均 12.18% 6.04% 9.28% 8.59% 9.05% 6.25%
(1915/15720) (950/15720) (1459/15720) (1351/15720) (1423/15720) (983/15720)


next up previous contents
次へ: 状態共有型HMM 上へ: 単語音声認識精度 戻る: 単語音声認識精度   目次
平成18年3月20日