next up previous contents
次へ: その他の実験結果 上へ: 単語音声認識精度 戻る: 半連続型HMM   目次

状態共有型HMM

状態共有型HMMにおけるMFCCでのの単語認識精度を表24に示す. FBANKでの単語認識精度を表25に示す.


表 24: 状態共有型HMM,MFCC,diagonalの単語音声認識誤り率
  基本モデル アクセントモデル アクセントtriphoneモデル triphone モデル
mau 22.98% 15.15% 7.79% 7.86%
  (602/2620) (397/2620) (204/2620) (206/2620)
mmy 23.09% 17.44% 7.71% 12.71%
  (605/2620) (457/2620) (202/2620) (333/2620)
mnm 22.56% 16.37% 8.13% 9.58%
  (591/2620) (429/2620) (213/2620) (251/2620)
faf 21.41% 12.06% 6.60% 7.75%
  (561/2620) (316/2620) (173/2620) (203/2620)
fms 27.21% 15.04% 10.80% 11.76%
  (713/2620) (394/2620) (283/2620) (308/2620)
ftk 22.75% 11.26% 10.73% 11.91%
  (596/2620) (295/2620) (281/2620) (312/2620)
平均 23.33% 14.55% 8.63% 10.26%
  (3668/15720) (2288/15720) (1356/15720) (1613/15720)


表 25: 状態共有型HMM,FBANK,diagonalの単語音声認識誤り率
  基本モデル アクセントモデル アクセントtriphoneモデル triphone モデル
mau 41.64% 12.56% 15.27% 14.05%
  (1091/2620) (329/2620) (400/2620) (368/2620)
mmy 50.46% 20.46% 12.82% 13.09%
  (1322/2620) (536/2620) (336/2620) (343/2620)
mnm 42.79% 16.30% 12.37% 11.72%
  (1121/2620) (427/2620) (324/2620) (307/2620)
faf 34.58% 11.11% 14.01% 13.97%
  (906/2620) (291/2620) (367/2620) (366/2620)
fms 46.15% 19.54% 14.39% 12.94%
  (1209/2620) (512/2620) (377/2620) (339/2620)
ftk 51.22% 15.92% 18.44% 18.97%
  (1342/2620) (417/2620) (483/2620) (497/2620)
平均 44.47% 15.98% 14.55% 14.12%
  (6991/15720) (2512/15720) (2287/15720) (2220/15720)

実験より以下の結果を得た.

  1. MFCCはFBANKより同音異義語の認識精度が高い.
  2. 状態共有型HMMの認識率は半連続型HMMと比べ低い.
  3. 半連続型HMMのFULLのMFCCで最も高く, 94.65%の認識精度が得られた.
  4. どの条件でも, 認識精度はアクセントtriphoneモデルまたはtriphoneモ デル, アクセントモデル, 基本モデルの順で高い.


next up previous contents
次へ: その他の実験結果 上へ: 単語音声認識精度 戻る: 半連続型HMM   目次
平成18年3月20日