単語音声認識を行うツールとして、HTK[3]を使用する。 単語音声認識は表に示される実験条件のもとで行う。
標本周波数 | 16kHz | 学習DB | 2620単語 |
分析窓 | Hamming窓 | 音素数 | 約15500 |
分析窓長 | 20ms | 母音数 | 約8000 |
フレーム周期 | 5ms | ||
特徴ベクトル | 16次MFCC+ | ||
16次MFCC+ | 評価DB | 2620単語 | |
対数パワー+ | 音素数 | 約15500 | |
対数パワー(計34次) | 母音数 | 約8000 | |
音響モデル | 3ループ4状態 | ||
半連続分布型 | |||
混合分布数 | 256 |
実験には、ATRの単語発話データベースAsetの20話者を使用する。 このデータベースAsetには、 話者ごとに1モーラから7モーラまでの単語 5240単語の音声波形データが含まれている。 また、この音声波形データには、人手によって付与された 音素境界位置情報を付与してある。 実験には、 このデータベースを奇数番と偶数番に分け、奇数を学習データ、偶 数を評価データとして使用する。
音素HMMの混合ガウス分布には、Diagonal-covariance(以下、Diagonal) とFull-covariance(以下、Full)の2種類を使用 し実験を行う。 Diagonalにおいては、20話者に対し単語音声認識を行い、 Fullにおいては、mauとmmyの2話者に対し単語音声認識を行 い、モーラ情報の有効性を調査する。