次へ: 実験結果
上へ: モーラ情報を用いた音素ラベリング
戻る: 評価方法 (音素境界位置と音素継続時間)
データベースにはATRの単語発話データベースAsetの5,240単語を使用し,奇数
番を学習データに,偶数番を評価データとする.
使用する音声データは全て,人手によって音素境界位置が付与されている.
評価実験は,男性話者10名と女性話者10名で行う.ケプストラムの計算や音素
HMMの学習や自動ラベリングなどにはHTK[8]を使用する.
音響モデルにはFull-covariance HMMを使用して実験を行う
(本論文では以後,Full-covariance HMMをFullと呼ぶ).
その他の実験条件を表2に示す.
表:
実験条件
標本周波数 |
16kHz |
学習DB |
2,620単語 |
分析窓 |
Hamming窓 |
音素数 |
約15,500 |
分析窓長 |
20ms |
母音数 |
約8,000 |
フレーム周期 |
5ms |
評価DB |
2,620単語 |
音響モデル |
4状態3ループ |
音素数 |
約15,500 |
mixture |
3 |
母音数 |
約8,000 |
特徴ベクトル |
16次MFCC+対数パワー(計17次) |
モーラ情報を使って母音・促音・撥音を分類すると,音素の種類は,26種類か
ら約160種類に増加する.しかし,学習データが不十分であるために学習がで
きない音素HMMがある.そのため,評価実験で使用される音素HMMは,
Fullで約80種類となった.
また,学習データが不十分で音素HMMが作成できない音素を含む評価データは,
評価から除外した.
次へ: 実験結果
上へ: モーラ情報を用いた音素ラベリング
戻る: 評価方法 (音素境界位置と音素継続時間)
平成14年2月22日