実験条件を表
に示す。
単語音声認識を行うツールとして、HTK[2]を使用した。
実験には、ATRの単語発話データベースAset(5240単語)を使用した。
このデータベー
スに含まれる波形データには、全て人手によって音素境界位置情報を付与してあ
るハンドラベル付の音声ラベルデータが対になっている。このデータベー
スを偶数番と奇数番に分け、奇数を
学習データ、偶数を評価データとして使用した。2つのデータベース(話者A、話
者B)を使いそれぞれ実験を行った。
| 標本周波数 | 16kHz | 学習DB | 2620単語 |
| 分析窓 | Hamming窓 | 音素数 | 約15500 |
| 分析窓長 | 20ms | 母音数 | 約8000 |
| フレーム周期 | 5ms | ||
| 特徴ベクトル | 16次MFCC+ | ||
| 16次2#2MFCC+ | 評価DB | 2620単語 | |
| 対数パワー+ | 音素数 | 約15500 | |
| 2#2対数パワー(計34次) | 母音数 | 約8000 | |
| 音響モデル | 3ループ4状態 | ||
| 半連続分布型 | |||
| 混合分布数 | 256 |