実験条件を表に示す。 単語音声認識を行うツールとして、HTK[2]を使用した。 実験には、ATRの単語発話データベースAset(5240単語)を使用した。 このデータベー スに含まれる波形データには、全て人手によって音素境界位置情報を付与してあ るハンドラベル付の音声ラベルデータが対になっている。このデータベー スを偶数番と奇数番に分け、奇数を 学習データ、偶数を評価データとして使用した。2つのデータベース(話者A、話 者B)を使いそれぞれ実験を行った。
標本周波数 | 16kHz | 学習DB | 2620単語 |
分析窓 | Hamming窓 | 音素数 | 約15500 |
分析窓長 | 20ms | 母音数 | 約8000 |
フレーム周期 | 5ms | ||
特徴ベクトル | 16次MFCC+ | ||
16次2#2MFCC+ | 評価DB | 2620単語 | |
対数パワー+ | 音素数 | 約15500 | |
2#2対数パワー(計34次) | 母音数 | 約8000 | |
音響モデル | 3ループ4状態 | ||
半連続分布型 | |||
混合分布数 | 256 |