next up previous contents
次へ: 母音と子音による認識精度の違い 上へ: 音素数に偏りを持つ学習データ 戻る: 音素数に偏りを持つ学習データの作成   目次

実験結果

8に,音素数に偏りを持つ学習データを用いて作成した話者 適応HMMの単語音声認識の実験結果を,表9に,164単語 の偏りを持つ学習データを用いて作成した混合HMMを用いた単語音声認識の実験 結果を,表10に,82単語 の偏りを持つ学習データを用いて作成した混合HMMを用いた単語音声認識の実験 結果を示す.


表 8: 偏りを持つ学習データを用いた話者適応HMMの実験結果
  164単語 82単語
  話者適応 話者適応
mau 91.64% 85.57%
  (2401/2620) (2242/2620)
mmy 91.30% 87.21%
  (2392/2620) (2285/2620)
mnm 89.85% 85.76%
  (2354/2620) (2247/2620)
faf 91.72% 88.44%
  (2403/2620) (2317/2620)
fms 89.05% 86.03%
  (2333/2620) (2254/2620)
ftk 91.60% 86.18%
  (2400/2620) (2258/2620)
平均 90.86% 86.53%
  (14283/15720) (13603/15720)

4と表8,表5と表 9,表6と表 10の比較より,音素数に偏りを持つ学習データを用いることで, 話者適応と全ての混合HMMにおいて認識精度が向上することが確認できた.

本節で作成した音素数に偏りを持つ学習データは,混合HMMの比較を行うために 30個未満の音素を含んでいるが,より詳細な条件を用いて作成する ことで,更に認識精度を向上させることができると考えている.


表 9: 164単語の偏りを持つ学習データを用いた混合HMMの実験結果
  10個未満 20個未満 30個未満  
  混合HMM 混合HMM 混合HMM  
mau 91.64% 92.06% 92.06%  
  (2401/2620) (2412/2620) (2412/2620)  
mmy 91.30% 91.11% 91.11%  
  (2392/2620) (2387/2620) (2387/2620)  
mnm 89.85% 90.15% 90.15%  
  (2354/2620) (2362/2620) (2362/2620)  
faf 91.72% 92.60% 92.60%  
  (2403/2620) (2426/2620) (2426/2620)  
fms 89.05% 89.54% 89.54%  
  (2333/2620) (2346/2620) (2346/2620)  
ftk 91.60% 93.40% 93.40%  
  (2400/2620) (2447/2620) (2447/2620)  
平均 90.86% 91.48% 91.48%  
  (14283/15720) (14380/15720) (14380/15720)  


表 10: 偏りを持つ82単語の学習データを用いた混合HMMの実験結果
  10個未満 20個未満 30個未満  
  混合HMM 混合HMM 混合HMM  
mau 89.20% 90.11% 90.76%  
  (2337/2620) (2361/2620) (2378/2620)  
mmy 88.44% 89.24% 89.89%  
  (2317/2620) (2338/2620) (2355/2620)  
mnm 87.98% 88.40% 88.09%  
  (2305/2620) (2316/2620) (2309/2620)  
faf 89.92% 90.95% 90.76%  
  (2356/2620) (2383/2620) (2378/2620)  
fms 87.82% 88.63% 89.35%  
  (2301/2620) (2322/2620) (2341/2620)  
ftk 89.69% 91.15% 92.10%  
  (2350/2620) (2388/2620) (2413/2620)  
平均 88.84% 89.75% 90.16%  
  (13966/15720) (14108/15720) (14173/15720)  

通常の学習データを用いた実験と音素数に偏りを持つ学習データ実験の6話者の 平均誤り率を示す. 164単語の学習データの結果を図12に,82単語の学習データの結 果を図13に示す.

図 12: 164単語の学習データを用いた実験結果
\fbox{
\includegraphics[scale=0.32]{eps/result2_164.eps}
}

図 13: 82単語の学習データを用いた実験結果
\fbox{
\includegraphics[scale=0.32]{eps/result2_82.eps}
}

実験結果より,音素数に偏りを持つ学習データを用いることで, 話者適応と全ての混合HMMにおいて認識精度が向上することが確認できた.

本節で作成した音素数に偏りを持つ学習データは,混合HMMの比較を行うために 30個未満の音素を含んでいるが,より詳細な条件を用いて作成する ことで,更に認識精度を向上させることができると考えている.


next up previous contents
次へ: 母音と子音による認識精度の違い 上へ: 音素数に偏りを持つ学習データ 戻る: 音素数に偏りを持つ学習データの作成   目次
平成20年3月11日