データベースにはATRの単語発話データベース Aset、5240単語を使用し、奇数番を学習データ、偶数番を評価データとする。学 習データ、評価データともに音素数は約15500、母音数は約8000である。使 用する音声データは全て、人手によって音素境界位置情報が付与されている。 評価実験は男性話者10名、女性話者10名でそれぞれ行う。 音響モデルにDiagonal-covarianceを使用した場合とFull-covarianceを使用した 場合で実験を行う(本論文では以後、Diagonal-covarianceをDiagonal、 Full-covarianceをFullと呼ぶ)。 その他の実験条件を表2に示す。
標本周波数 | 16kHz | 学習DB | 2620単語 |
分析窓 | Hamming窓 | 音素数 | 約15500 |
分析窓長 | 20ms | 母音数 | 約8000 |
フレーム周期 | 5ms | 評価DB | 2620単語 |
音響モデル | 4状態3ループ | 音素数 | 約15500 |
mixture | 3 | 母音数 | 約8000 |
特徴ベクトル | 16次MFCC+ | ||
対数パワー(計17次) |
モーラ情報を使って母音・促音・撥音を分類する場合、音素の種類は、26種類から約 160種類となる。しかし、学習データが不十分であるために作成できない音素HMM がある。 そのため、評価実験で使用される音素HMMは、Diagonalで約120種類、Full で約80種類となった。 また、学習データが不十分で音素HMMが作成できない音素を含む評価データは、評価デ −タから除外した。