next up previous
次へ: 考察 上へ: 単語のHMMとbigramを利用した文節音声認識 戻る: テストデータ

実験結果

実験結果を表6に示す。この結果からわかることを 以下に示す。

  1. 実験1からtest-closed の 正常所見で96.8%、異常所見では78.1%、text-openの正常所見で も86.5%、異常所見では72.1%の高い文節認識率が得られた。した がってHMMの学習データが1つでもFuzzy-VQを使用することにより 高い文節認識性能が得られることがわかった。

  2. 実験1と実験2の比較から、duration controlを行なうと 認識性能が低下した。この原因としてduration controlに使用した 平均・分散の値の不正確さが考えられる。これらの値は同一話者が 発声した3つの単語発声の音声データから計算したため値の信頼度 はかなり低い。

  3. 実験結果2と実験結果3の比較から、N-bestの幅を 広げた方が高い認識率を出すことが示された。

  4. 実験結果2と実験結果4の比較から、音声データを増加させる ことによって認識性能が向上することが示された。これはHMMのパ ラメータを推定するための学習データが1つでは、不十分であるこ とを示している。しかし不特定話者認識の場合、一人の発話データ が1つしかなくても、複数の話者が発話することによって、多くの 音声データが利用できるため、認識単位が単語でも問題はないと思 われる。


表 6: 実験結果
実験番号 1 2 3 4
duration control なし あり あり あり
N-best 2 2 8 2
学習データ数 1 1 1 3
text-closed data 96.8% 82.6% 100.0% 100.0%
の正常所見        
text-closed data 78.1% 76.3% 78.9% 84.2%
の異常所見        
text-open data 86.5% 86.5% 89.2% 94.6%
の正常所見        
text-open data 72.1% 68.9% 72.1% 77.0%
の異常所見        



Jin'ichi Murakami 平成13年10月5日