next up previous contents
次へ: まとめ 上へ: 話者ごとの自由発話の音響的な特徴 戻る: 発話速度からみた自由発話   目次

認識精度(phone accuracy)から見た自由発話

ここでは自由発話と朗読発話の差を、連続音素認識実験を行ない音素正解率(phone correct)および音素認識精度(phone accuracy)[60],[15] (4.3.1.3節参照)で評価した。

  1. 実験条件

    特定話者の同一発話様式の認識実験を行なうために、同一話者の同一発話様式の音 声データの、文番号の奇数番目を学習データに偶数番目を評価データにした。学習 プログラムには主に HTK Software Tools[15]を使用した。特徴パラメータ にはLPCケプストラムを使用し、HMMには対角共分散の混合連続分布型を用いた。表 6.7 に実験条件を示す。


    表 6.7: 音素認識の実験条件
    認識対象 26 音素
    サンプリング周波数 12kHz
    話者 男性2名、女性2名のナレータ
    学習データ 約50文
    音響パラメータ log power + 16次LPCcepstrum
      + $\Delta$log power + 16次$\Delta$cepstrum
    フレーム窓長 20ms
    フレーム周期 5ms
    LPC分析 16次
    打ち切り次数 16次
    音素モデル 4-state 3-loop 3 mixture
      Gaussian continuous HMM (diagoal)

    認識実験は以下のようにしておこなった。

    1. 学習データにおいて、融合ラベルが付与されなかった音素のみを切り出して Baum-Welchアルゴリズム[4]を用いてパラメータの再推定をする。学習回数は10回。

    2. 学習データを文単位で連結学習する。 学習データは間投詞や言い直しを含む。学習回数は3回。

    3. 学習データと同一話者・同一発話様式の評価データを文単位で連続音素認識 (one-pass DP)する。なお評価データは間投詞や言い直しを含む。

    4. 評価データの音素ラベルを正解として、音素正解率(phone correct)と音素 認識精度(phone accuracy) を計算する。

  2. 話者ごとの自由発話における音素認識率

    6.13に、認識実験の結果得られた音素正解率(phone correct)と 音素認識精度(phone accuracy)を示す。また母音の音素認識誤り傾向を 表6.8に示す。

    図 6.13: 音素認識実験結果 音素認識率(%)
    \begin{figure}\begin{center}
\fbox{\epsfile{file=PS1/error-rate.ps,width=100mm}}\end{center}\end{figure}


    (a) 話者MTK (認識音素数/対象音素数)

    表 6.8: 音素認識誤り傾向
        出力
        a i u e o
      a 83.1% 0.0% 1.5% 3% 7.5%
        (167/201) ( 0/201) ( 3/201) ( 6/201) ( 15/201)
      i 0.7% 85.1% 3.9% 3.9% 0.7%
      ( 1/128) (109/128) ( 5/128) ( 5/128) ( 1/128)
      u 7.3% 4.8% 48.7% 2.4% 9.7%
      ( 6/ 82) ( 4/ 82) ( 40/ 82) ( 2/ 82) ( 8/ 82)
      e 3.0% 13.7% 1.5% 76.3% 2.2%
        ( 4/131) ( 18/131) ( 2/131) (100/131) ( 3/131)
      o 3.5% 0.7% 5.7% 2.8% 80.0%
        ( 5/140) ( 1/140) ( 8/140) ( 4/140) (112/140)

    (b) 話者MMY (認識音素数/対象音素数)

        出力
        a i u e o
      a 93.2% 0.1% 0.7% 3.0% 1.1%
        (633/679) ( 1/679) ( 5/679) ( 21/679) ( 8/679)
      i 0.0% 81.4% 3.2% 4.9% 0.0%
      ( 0/426) (347/426) ( 14/426) ( 21/426) ( 0/426)
      u 1.2% 4.0% 45.6% 3.4% 7.1%
      ( 4/320) ( 13/320) (146/320) ( 11/320) ( 23/320)
      e 1.4% 3.4% 2.2% 83.4% 0.7%
        ( 6/405) ( 14/405) ( 9/405) (338/405) ( 3/405)
      o 1.5% 0.0% 1.7% 3.4% 88.5%
        ( 8/522) ( 0/522) ( 9/522) ( 18/522) (462/522)

    (c) 話者FKN (認識音素数/対象音素数)

        出力
        a i u e o
      a 83.7% 0.4% 1.9% 4.6% 1.5%
        (381/455) ( 2/455) ( 9/455) ( 21/455) ( 7/455)
      i 0.0% 76.4% 2.0% 3.8% 0.3%
      ( 0/289) (221/289) ( 6/289) ( 11/289) ( 1/289)
      u 1.4% 0.9% 52.6% 9.7% 4.3%
      ( 3/205) ( 2/205) (108/205) ( 20/205) ( 9/205)
      e 0.4% 4.8% 3.0% 84.1% 0.0%
        ( 1/227) ( 11/227) ( 7/227) (191/227) ( 0/227)
      o 1.2% 0.0% 4.4% 0.3% 88.6%
        ( 4/318) ( 0/318) ( 14/318) ( 1/318) (282/318)

    (d) 話者FAK (認識音素数/対象音素数)

        出力
        a i u e o
      a 80.6% 0.0% 4.1% 4.7% 2.0%
        (393/487) ( 0/487) ( 20/487) ( 23/487) ( 10/487)
      i 0.0% 73.9% 1.1% 7.9% 0.3%
      ( 0/265) (196/265) ( 3/265) ( 21/265) ( 1/265)
      u 6.0% 3.5% 43.2% 6.0% 4.0%
      ( 12/199) ( 7/199) ( 86/199) ( 12/199) ( 8/199)
      e 0.8% 9.0% 2.8% 78.6% 0.4%
        ( 2/244) ( 22/244) ( 7/244) (192/244) ( 1/244)
      o 2.6% 0.0% 3.9% 1.5% 83.7%
        ( 10/381) ( 0/381) ( 15/381) ( 6/381) (319/381)


    これから次のような結果が示される。

    1. 自由発話は朗読発話と比較して、音素正解率も音素認識率も低下する。

    2. 自由発話の正解率(phone correct)は、65% $\sim$ 72%である。

    3. 自由発話の認識精度(phone accuracy)は、58% $\sim$ 63%である。

    4. 自由発話は朗読発話と比較すると認識精度は7% $\sim$ 10%程度低下する。

    5. 各音素の認識率をみると、母音の/u/の認識精度が他の音素と比較して低い。

  3. 発話様式の違いによる音素認識率

    ここでは各発話様式の差を音素認識誤り率で評価した。音素モデルとして混合連続分布型HMMを用い 、認識アルゴリズムにはViterbiサーチを用いた。ただし、融合ラベルを付 与された音素は実験では用いなかった。また学習データとして単語 発声から視察によって切り出した音素を使用した場合と、同一発話 様式の音声データから視察によって切り出した音素を使用した場合 の、2種類の実験を行なった。

    実験は表6.7とほぼ同一である。たたし、 学習データに単語発声を使用した場合、HMMの混合数は 10 mixtures で、その他は 3 mixtures である。学習データに単語発声を使用した場 合の、各発声様式における音素認識誤り率を、図6.14に示す。 また、同一発話様式の音声データを2つに わけ、一方を学習データとし、一方をテストデータとして実験した場 合の音素認識誤り率を、図6.15に示す。 これから次のような結果が示される。

    1. 学習データが単語発話のとき、自由発話の音素認識誤り率は 高い。朗読発声の音素認識誤り率と比較すると、ナレータMTKは 約160% 程度増加し(21.6% $\rightarrow $ 37.6%)、ナレータFKN では約 240%も増加している (18.8% $\rightarrow $ 44.4%)。

    2. 学習データに自由発話の音声を利用することにより、音素認 識誤り率は大きく低下する(MTK:37.6% $\rightarrow $ 16.0%, FKN:44.4% $\rightarrow $ 15.0%)。学習データが単語発声のと きの文の朗読発声の音素認識誤り率(MTK:21.6%, FKN:18.8%)よ り低くなる。

    3. 自由発話を学習データとした場合、母音の中では/u/の認識 誤り率が高い(MTK:43.9%, FKN:27.9%)。また、調査音素の数が 少ないため明確ではないが、子音では/w/の認識誤り率が高い。 (MTK:78.9%, FKN:66.7%)、

    4. 単語発声、文節単位の朗読発声、文単位の朗読発声、自由発 話の順に音素認識誤り率が増加する。

    5. 学習データが同一発話様式の場合、各発話様式において話者 の相違はあまり見られないが、学習データが単語発話のとき、話 者の相違が見られる。

    図 6.14: 発話様式の違いによる音素認識誤り率(学習データ:単語発声)
    \begin{figure}\begin{center}
\fbox{\epsfile{file=FIGURE/figure3.12.ps,width=100mm}}\end{center}\end{figure}

    図 6.15: 発話様式の違いによる音素認識誤り率(学習データ:同一発話様式)
    \begin{figure}\begin{center}
\fbox{\epsfile{file=FIGURE/figure3.13.ps,width=100mm}}\end{center}\end{figure}


next up previous contents
次へ: まとめ 上へ: 話者ごとの自由発話の音響的な特徴 戻る: 発話速度からみた自由発話   目次
Jin'ichi Murakami 平成13年1月5日