不特定話者における実験結果の比較

次へ: 特定話者における状態共有型HMM 上へ: 木に基づく状態共有 戻る: 木に基づく状態共有目次

不特定話者における実験結果の比較

表54に不特定話者, MFCCにおける状態共有型HMMの実験結果を示す. 表55に不特定話者, MFCCにおける状態共有型HMMの実験結果を示す. なお, 表中の状態数はおよその数である. 表 54, 55の全てのモデルの結果において, 状態数を調整していない状態共有型HMMの実験結果の単語と同音異義語の認識精度は, 状態数が約200の状態共有型HMMの実験結果の認識精度より高い.

また, 各モデルの音素数は表7に示しているが, 状態共有を行わない時の状態数は表56となる. 状態共有によって状態数を200としたとき, triphoneモデルの状態は2.90%(200/6900)に, アクセントモデルは14.81%(200/1350)に, アクセントtriphoneモデルは 0.65%(200/30900)になった.

実験結果より, 全てのモデルにおいて200程度の状態数は, 状態空間を表現するには不十分だと考えられる. また, 状態数を調整していない状態共有型HMMの実験結果のモーラモデル, アクセントモデル以外のモデルの認識精度のほとんどは, 同条件のDiagonalの半連続型HMMの認識精度より高く, Fullの半連続型HMMの認識精度より低い.

**表 54:** 不特定話者, MFCCにおける状態共有型HMMの実験結果
	triphoneモデル		アクセントモデル			アクセントtriphoneモデル
	状態	単語誤り率	状態	単語誤り率	同音異義語	状態	単語誤り率	同音異義語
	数		数		誤り率	数		誤り率
表24, 18	200	10.26%	200	14.55%	34%	200	8.63%	45%
の実験結果		(1613/15720)		(2288/15720)	(45/132)		(1356/15720)	(45/132)
表39, 28	1000	6.44%	300	14.38%	32%	1100	5.46%	19%
の実験結果		(1012/15720)		(2260/15720)	(42/132)		(859/15720)	(25/132)

**表 55:** 不特定話者, FBANKにおける状態共有型HMMの実験結果
	triphoneモデル		アクセントモデル			アクセントtriphoneモデル
	状態	単語誤り率	状態	単語誤り率	同音異義語	状態	単語誤り率	同音異義語
	数		数		誤り率	数		誤り率
表25, 19	200	14.12	200	15.98%	33%	200	14.55%	54%
の実験結果		(2220/15720)		(2512/15720)	(44/132)		(2287/15720)	(54/132)
表40, 29	1500	9.08%	550	14.28%	28%	1900	8.00%	17%
の実験結果		(1428/15720)		(2245/15720)	(37/132)		(1258/15720)	(23/132)

**表 56:** モデルにおける状態数
triphone	アクセント	アクセントtriphone
モデル	モデル	モデル
約6900	約1350	約30900

次へ: 特定話者における状態共有型HMM 上へ: 木に基づく状態共有 戻る: 木に基づく状態共有目次

平成18年3月20日