next up previous
次へ: 実験結果 上へ: モーラ情報を用いた音素ラベリング 戻る: 評価方法 (音素境界位置と音素継続時間)

実験条件


データベースにはATRの単語発話データベースAsetの5,240単語を使用し,奇数 番を学習データに,偶数番を評価データとする. 使用する音声データは全て,人手によって音素境界位置が付与されている.

評価実験は,男性話者10名と女性話者10名で行う.ケプストラムの計算や音素 HMMの学習や自動ラベリングなどにはHTK[8]を使用する.

音響モデルにはFull-covariance HMMを使用して実験を行う (本論文では以後,Full-covariance HMMをFullと呼ぶ). その他の実験条件を表2に示す.



表: 実験条件
標本周波数 16kHz 学習DB 2,620単語
分析窓 Hamming窓 音素数 約15,500
分析窓長 20ms 母音数 約8,000
フレーム周期 5ms 評価DB 2,620単語
音響モデル 4状態3ループ 音素数 約15,500
mixture 3 母音数 約8,000
特徴ベクトル 16次MFCC+対数パワー(計17次)


モーラ情報を使って母音・促音・撥音を分類すると,音素の種類は,26種類か ら約160種類に増加する.しかし,学習データが不十分であるために学習がで きない音素HMMがある.そのため,評価実験で使用される音素HMMは, Fullで約80種類となった. また,学習データが不十分で音素HMMが作成できない音素を含む評価データは, 評価から除外した.



next up previous
次へ: 実験結果 上へ: モーラ情報を用いた音素ラベリング 戻る: 評価方法 (音素境界位置と音素継続時間)
平成14年2月22日