next up previous
次へ: 音素認識実験から見た自由発話 上へ: 自由発話の特徴 戻る: 発話速度からみた自由発話

認識精度(Phone Accuracy)から見た自由発話

ここでは自由発話と朗読発話の差を、連続音素認識実験をして正解率(Phone Correct)および認識精度(Phone Accuracy)[21],[20]で評価した。 特定話者の同一発話様式の認識実験を行なうために、同一話者の同一発話様式の音 声データの、文番号の奇数番目を学習データに偶数番目を評価データにした。学習 プログラムには主に HTK Software Tools[20]を使用した。特徴パラメータ にはLPCケプストラムを使用し、HMMには混合連続分布型を用いた。表 5 に実験条件を示す。


表 5: 音素認識の実験条件
認識対象 26 音素
サンプリング周波数 12kHz
話者 男性のナレータ
学習データ 同一発話様式
音響パラメータ log power + 16次LPCcepstrum
  + $\Delta$log power + 16次$\Delta$cepstrum
フレーム窓長 20ms
フレーム周期 5ms
LPC分析 16次
打ち切り次数 16次
音素モデル 4-state 3-loop 3 mixture
  Gaussian continuous HMM (diagoal)

認識実験は以下のようにしておこなった。

  1. 学習データにおいて、融合ラベルが付与されなかった音素のみを切り出して Baum-Welch学習をする。学習回数は10回。

  2. 学習データを文単位で連結学習する。 学習データは間投詞や言い直しを含む。学習回数は3回。

  3. 学習データと同一話者・同一発話様式の評価データを文単位で連続音素認識 する。なお評価データは間投詞や言い直しを含む。

  4. 評価データの音素ラベルを正解として、音素正解率(Phone Correct)と音素 認識精度(Phone Accuracy) を計算する。



Jin'ichi Murakami 平成13年5月7日