次へ: 考察
上へ: 単語のHMMとbigramを利用した文節音声認識
戻る: テストデータ
実験結果を表6に示す。この結果からわかることを
以下に示す。
- 実験1からtest-closed の
正常所見で96.8%、異常所見では78.1%、text-openの正常所見で
も86.5%、異常所見では72.1%の高い文節認識率が得られた。した
がってHMMの学習データが1つでもFuzzy-VQを使用することにより
高い文節認識性能が得られることがわかった。
- 実験1と実験2の比較から、duration controlを行なうと
認識性能が低下した。この原因としてduration controlに使用した
平均・分散の値の不正確さが考えられる。これらの値は同一話者が
発声した3つの単語発声の音声データから計算したため値の信頼度
はかなり低い。
- 実験結果2と実験結果3の比較から、N-bestの幅を
広げた方が高い認識率を出すことが示された。
- 実験結果2と実験結果4の比較から、音声データを増加させる
ことによって認識性能が向上することが示された。これはHMMのパ
ラメータを推定するための学習データが1つでは、不十分であるこ
とを示している。しかし不特定話者認識の場合、一人の発話データ
が1つしかなくても、複数の話者が発話することによって、多くの
音声データが利用できるため、認識単位が単語でも問題はないと思
われる。
表 6:
実験結果
実験番号 |
1 |
2 |
3 |
4 |
duration control |
なし |
あり |
あり |
あり |
N-best |
2 |
2 |
8 |
2 |
学習データ数 |
1 |
1 |
1 |
3 |
text-closed data |
96.8% |
82.6% |
100.0% |
100.0% |
の正常所見 |
|
|
|
|
text-closed data |
78.1% |
76.3% |
78.9% |
84.2% |
の異常所見 |
|
|
|
|
text-open data |
86.5% |
86.5% |
89.2% |
94.6% |
の正常所見 |
|
|
|
|
text-open data |
72.1% |
68.9% |
72.1% |
77.0% |
の異常所見 |
|
|
|
|
Jin'ichi Murakami
平成13年10月5日