next up previous contents
次へ: 特定話者における状態共有型HMM 上へ: 木に基づく状態共有 戻る: 木に基づく状態共有   目次

不特定話者における実験結果の比較

54に不特定話者, MFCCにおける状態共有型HMMの実験結果 を示す. 表55に不特定話者, MFCCにおける状態共有型HMMの 実験結果を示す. なお, 表中の状態数はおよその数である. 表 54, 55の全てのモデルの結果におい て, 状態数を調整していない状態共有型HMMの実験結果の単語と同音異義語の認識 精度は, 状態数が約200の状態共有型HMMの実験結果の認識精度より高い.

また, 各モデルの音素数は表7に示しているが, 状態共有を行わ ない時の状態数は表56となる. 状態共有によって状態数を200と したとき, triphoneモデルの状態は2.90%(200/6900)に, アクセ ントモデルは14.81%(200/1350)に, アクセントtriphoneモデルは 0.65%(200/30900)になった.

実験結果より, 全てのモデルにおいて200程度の状態数は, 状態空間を表現するに は不十分だと考えられる. また, 状態数を調整していない状態共有型HMMの実験結 果のモーラモデル, アクセントモデル以外のモデルの認識精度のほとんどは, 同条 件のDiagonalの半連続型HMMの認識精度より高く, Fullの半連続型HMMの認識精度よ り低い.


表 54: 不特定話者, MFCCにおける状態共有型HMMの実験結果
triphoneモデル アク セントモデル アクセントtriphoneモデル
状態 単語誤り率 状態 単語誤り率 同音異義語 状態 単語誤り率 同音異義語
誤り率 誤り率
24, 18 200 10.26% 200 14.55% 34% 200 8.63% 45%
の実験結果 (1613/15720) (2288/15720) (45/132) (1356/15720) (45/132)
39, 28 1000 6.44% 300 14.38% 32% 1100 5.46% 19%
の実験結果 (1012/15720) (2260/15720) (42/132) (859/15720) (25/132)


表 55: 不特定話者, FBANKにおける状態共有型HMMの実験結果
triphoneモデル アク セントモデル アクセントtriphoneモデル
状態 単語誤り率 状態 単語誤り率 同音異義語 状態 単語誤り率 同音異義語
誤り率 誤り率
25, 19 200 14.12 200 15.98% 33% 200 14.55% 54%
の実験結果 (2220/15720) (2512/15720) (44/132) (2287/15720) (54/132)
40, 29 1500 9.08% 550 14.28% 28% 1900 8.00% 17%
の実験結果 (1428/15720) (2245/15720) (37/132) (1258/15720) (23/132)


表 56: モデルにおける状態数
triphone アクセント アクセントtriphone
モデル モデル モデル
約6900 約1350 約30900


next up previous contents
次へ: 特定話者における状態共有型HMM 上へ: 木に基づく状態共有 戻る: 木に基づく状態共有   目次
平成18年3月20日