next up previous contents
次へ: 特定話者実験の状態共有型HMM 上へ: 単語音声認識精度 戻る: 状態数無調整の状態共有型HMM   目次

特定話者実験の半連続型HMM

特定話者での, stream数 3, 混合分布数128 128 16, 半連続型HMMのMFCC, Diagonalにおける単語音声認識精度を表41に示す. FBANK, Diagonalにおける単語音声認識精度を表42に示す. MFCC, Full における単語音声認識精度を表43に示す. FBANK, Fullにおけ る単語音声認識精度を表44に示す. 表41, 42, 43, 43の実験結果は [12]での結果であり, 実験条件は[12]に示されている.

また, [12]の条件でstream数と混合分布数が異なる実験結果を示す. 表45, 表46, 表47は実験条件 を同一にしていない.


表 41: 特定話者における半連続型HMM,MFCC,Diagonal,stream数 3, 混合分布数128,128,16での単語誤り率
話者 基本モデル アクセントモデル
mau 6.76%(177/2620) 3.85%(101/2620)
mmy 7.21%(189/2620) 4.58%(120/2620)
mnm 8.13%(213/2620) 4.16%(109/2620)
faf 7.33%(192/2620) 3.78%(99/2620)
fms 7.06%(185/2620) 5.23%(137/2620)
ftk 6.82%(179/2620) 4.16%(109/2620)
平均 7.22%(1135/15720) 4.29%(675/15720)


表 42: 特定話者における半連続型HMM,FBANK,Diagonal,stream数 3, 混合分布数128,128,16での単語誤り率
話者 基本モデル アクセントモデル
mau 10.31%(270/2620) 7.02%(184/2620)
mmy 12.29%(322/2620) 7.10%(186/2620)
mnm 10.34%(271/2620) 7.33%(192/2620)
faf 8.70%(228/2620) 6.37%(167/2620)
fms 11.45%(300/2620) 8.21%(215/2620)
ftk 9.77%(256/2620) 7.18%(188/2620)
平均 10.48%(1647/15720) 7.20%(1132/15720)


表 43: 特定話者における半連続型HMM,MFCC,Full,stream数 3, 混合分布数 128,128,16での単語誤り率
話者 基本モデル アクセントモデル
mau 4.69%(123/2620) 3.21%(84/2620)
mmy 6.18%(162/2620) 3.74%(98/2620)
mnm 5.46%(143/2620) 3.40%(89/2620)
faf 4.69%(123/2620) 3.05%(80/2620)
fms 5.50%(144/2620) 3.51%(92/2620)
ftk 4.85%(127/2620) 3.40%(89/2620)
平均 5.23%(822/15720) 3.38%(532/15720)


表 44: 特定話者における半連続型HMM,FBANK,Full,stream数 3, 混合分布数 128,128,16の単語誤り率
  基本モデル モーラモデル アクセントモデル
mau 5.21%(136/2611) 3.03%(79/2611) 2.94%(77/2611)
mmy 6.09%(159/2611) 3.18%(83/2611) 3.03%(79/2611)
mnm 5.48%(143/2611) 3.14%(82/2611) 3.14%(82/2611)
faf 4.79%(125/2611) 3.83%(100/2611) 3.33%(87/2611)
fms 5.52%(144/2611) 3.98%(104/2611) 3.87%(101/2611)
ftk 5.78%(151/2611) 3.68%(96/2611) 3.41%(89/2611)
平均 5.48%(858/15666) 3.47%(544/15666) 3.29%(515/15666)


表 45: 特定話者における半連続型HMM,MFCC,Diagonal,stream数1, 混合 分布数256の単語誤り率
基本モデル triphone モーラ アクセント モーラ アクセント
モデル モデル モデル triphoneモデル triphoneモデル
mau 5.31% 2.48% 4.12% 4.12% 2.25% 2.29%
(139/2620) (65/2620) (108/2620) (108/2620) (59/2620) (60/2620)
mmy 6.22% 4.05% 4.54% 4.54% 4.08% 3.93%
(163/2620) (106/2620) (119/2620) (119/2620) (107/2620) (103/2620)
mnm 6.07% 2.75% 4.31% 4.23% 2.79% 2.44%
(159/2620) (72/2620) (113/2620) (111/2620) (73/2620) (64/2620)
faf 7.71% 4.62% 5.64% 5.03% 4.85% 4.35%
(202/2620) (121/2620) (148/2620) (132/2620) (127/2620) (114/2620)
fms 5.53% 2.86% 3.96% 3.92% 2.86% 3.36%
(145/2620) (75/2620) (104/2620) (103/2620) (75/2620) (88/2620)
ftk 6.56% 3.85% 5.15% 4.35% 4.20% 3.70%
(172/2620) (101/2620) (135/2620) (114/2620) (110/2620) (97/2620)
平均 6.23% 3.43% 4.62% 4.36% 3.51% 3.35%
(980/15720) (540/15720) (727/15720) (687/15720) (551/15720) (526/15720)


表 46: 特定話者における半連続型HMM,FBANK,Diagonal,stream数 3, 混 合分布数 256 256 32の単語誤り率
  基本モデル モーラモデル アクセントモデル
mau 5.21%(173/2620) 5.15%(135/2620) 5.92%(155/2620)
mmy 7.94%(208/2620) 6.20%(165/2620) 6.22%(163/2620)
mnm 8.17%(214/2620) 5.57%(146/2620) 5.80%(152/2620)
faf 6.79%(178/2620) 5.38%(141/2620) 5.15%(135/2620)
fms 7.06%(185/2620) 5.00%(131/2620) 5.61%(145/2620)
ftk 7.18%(188/2620) 5.42%(142/2620) 6.07%(159/2620)
平均 7.06%(1146/15720) 5.45%(860/15720) 5.80%(909/15720)


表 47: 特定話者における半連続型HMM,MFCC,Full,stream数 1, 混合分 布数256の単語誤り率
  基本モデル triphoneモデル モーラモデル アクセントモデル
mau 3.79% 1.38% 2.75% 2.06%
  (99/2611) (36/2611) (72/2611) (54/2611)
mmy 4.21% 2.95% 2.83% 2.64%
  (110/2611) (77/2611) (74/2611) (69/2611)
mnm 3.68% 1.65% 2.25% 2.33%
  (96/2611) (43/2611) (59/2611) (61/2611)
faf 3.18% 2.14% 2.45% 1.95%
  (83/2611) (56/2611) (64/2611) (51/2611)
fms 3.87% 2.11% 2.87% 2.91%
  (101/2611) (55/2611) (75/2611) (76/2611)
ftk 3.19% 1.76% 2.37% 2.83%
  (86/2611) (46/2611) (62/2611) (74/2611)
平均 3.65% 1.99% 2.58% 2.45%
  (575/15720) (313/15720) (406/15720) (385/15720)


next up previous contents
次へ: 特定話者実験の状態共有型HMM 上へ: 単語音声認識精度 戻る: 状態数無調整の状態共有型HMM   目次
平成18年3月20日