認識精度(Phone Accuracy)から見た自由発話

次へ: 音素認識実験から見た自由発話 上へ: 自由発話の特徴 戻る: 発話速度からみた自由発話

認識精度(Phone Accuracy)から見た自由発話

ここでは自由発話と朗読発話の差を、連続音素認識実験をして正解率(Phone Correct)および認識精度(Phone Accuracy)[21],[20]で評価した。特定話者の同一発話様式の認識実験を行なうために、同一話者の同一発話様式の音声データの、文番号の奇数番目を学習データに偶数番目を評価データにした。学習プログラムには主に HTK Software Tools[20]を使用した。特徴パラメータにはLPCケプストラムを使用し、HMMには混合連続分布型を用いた。表 5 に実験条件を示す。

**表 5:** 音素認識の実験条件
認識対象	26 音素
サンプリング周波数	12kHz
話者	男性のナレータ
学習データ	同一発話様式
音響パラメータ	log power + 16次LPCcepstrum
	+ $\Delta$ log power + 16次 $\Delta$ cepstrum
フレーム窓長	20ms
フレーム周期	5ms
LPC分析	16次
打ち切り次数	16次
音素モデル	4-state 3-loop 3 mixture
	Gaussian continuous HMM (diagoal)

認識実験は以下のようにしておこなった。

学習データにおいて、融合ラベルが付与されなかった音素のみを切り出して Baum-Welch学習をする。学習回数は１０回。
学習データを文単位で連結学習する。学習データは間投詞や言い直しを含む。学習回数は３回。
学習データと同一話者・同一発話様式の評価データを文単位で連続音素認識する。なお評価データは間投詞や言い直しを含む。
評価データの音素ラベルを正解として、音素正解率(Phone Correct)と音素認識精度(Phone Accuracy) を計算する。

Jin'ichi Murakami 平成13年5月7日