next up previous
次へ: 実験結果 上へ: tottori 戻る: 評価方法

評価実験

3章で述べた方法により、モーラ情報を使用した場合と使用 しない場合について単語の音素ラベリングを行う。

データベースにはATRの単語発話データベース Aset、5240単語を使用し、奇数番を学習データ、偶数番を評価データとする。学 習データ、評価データともに音素数は約15500、母音数は約8000である。使 用する音声データは全て、人手によって音素境界位置情報が付与されている。 評価実験は男性話者10名、女性話者10名でそれぞれ行う。 音響モデルにDiagonal-covarianceを使用した場合とFull-covarianceを使用した 場合で実験を行う(本論文では以後、Diagonal-covarianceをDiagonal、 Full-covarianceをFullと呼ぶ)。 その他の実験条件を表2に示す。




表: 実験条件
標本周波数 16kHz 学習DB 2620単語
分析窓 Hamming窓 音素数 約15500
分析窓長 20ms 母音数 約8000
フレーム周期 5ms 評価DB 2620単語
音響モデル 4状態3ループ 音素数 約15500
mixture 3 母音数 約8000
特徴ベクトル 16次MFCC+
対数パワー(計17次)


モーラ情報を使って母音・促音・撥音を分類する場合、音素の種類は、26種類から約 160種類となる。しかし、学習データが不十分であるために作成できない音素HMM がある。 そのため、評価実験で使用される音素HMMは、Diagonalで約120種類、Full で約80種類となった。 また、学習データが不十分で音素HMMが作成できない音素を含む評価データは、評価デ −タから除外した。


next up previous
次へ: 実験結果 上へ: tottori 戻る: 評価方法
平成13年9月6日