ここでは自由発話と朗読発話の差を、連続音素認識実験を行ない音素正解率(phone correct)および音素認識精度(phone accuracy)[60],[15] (4.3.1.3節参照)で評価した。
特定話者の同一発話様式の認識実験を行なうために、同一話者の同一発話様式の音 声データの、文番号の奇数番目を学習データに偶数番目を評価データにした。学習 プログラムには主に HTK Software Tools[15]を使用した。特徴パラメータ にはLPCケプストラムを使用し、HMMには対角共分散の混合連続分布型を用いた。表 6.7 に実験条件を示す。
認識対象 | 26 音素 |
サンプリング周波数 | 12kHz |
話者 | 男性2名、女性2名のナレータ |
学習データ | 約50文 |
音響パラメータ | log power + 16次LPCcepstrum |
+ log power + 16次cepstrum | |
フレーム窓長 | 20ms |
フレーム周期 | 5ms |
LPC分析 | 16次 |
打ち切り次数 | 16次 |
音素モデル | 4-state 3-loop 3 mixture |
Gaussian continuous HMM (diagoal) |
認識実験は以下のようにしておこなった。
図6.13に、認識実験の結果得られた音素正解率(phone correct)と 音素認識精度(phone accuracy)を示す。また母音の音素認識誤り傾向を 表6.8に示す。
出力 | ||||||
a | i | u | e | o | ||
a | 83.1% | 0.0% | 1.5% | 3% | 7.5% | |
(167/201) | ( 0/201) | ( 3/201) | ( 6/201) | ( 15/201) | ||
i | 0.7% | 85.1% | 3.9% | 3.9% | 0.7% | |
入 | ( 1/128) | (109/128) | ( 5/128) | ( 5/128) | ( 1/128) | |
u | 7.3% | 4.8% | 48.7% | 2.4% | 9.7% | |
力 | ( 6/ 82) | ( 4/ 82) | ( 40/ 82) | ( 2/ 82) | ( 8/ 82) | |
e | 3.0% | 13.7% | 1.5% | 76.3% | 2.2% | |
( 4/131) | ( 18/131) | ( 2/131) | (100/131) | ( 3/131) | ||
o | 3.5% | 0.7% | 5.7% | 2.8% | 80.0% | |
( 5/140) | ( 1/140) | ( 8/140) | ( 4/140) | (112/140) |
出力 | ||||||
a | i | u | e | o | ||
a | 93.2% | 0.1% | 0.7% | 3.0% | 1.1% | |
(633/679) | ( 1/679) | ( 5/679) | ( 21/679) | ( 8/679) | ||
i | 0.0% | 81.4% | 3.2% | 4.9% | 0.0% | |
入 | ( 0/426) | (347/426) | ( 14/426) | ( 21/426) | ( 0/426) | |
u | 1.2% | 4.0% | 45.6% | 3.4% | 7.1% | |
力 | ( 4/320) | ( 13/320) | (146/320) | ( 11/320) | ( 23/320) | |
e | 1.4% | 3.4% | 2.2% | 83.4% | 0.7% | |
( 6/405) | ( 14/405) | ( 9/405) | (338/405) | ( 3/405) | ||
o | 1.5% | 0.0% | 1.7% | 3.4% | 88.5% | |
( 8/522) | ( 0/522) | ( 9/522) | ( 18/522) | (462/522) |
出力 | ||||||
a | i | u | e | o | ||
a | 83.7% | 0.4% | 1.9% | 4.6% | 1.5% | |
(381/455) | ( 2/455) | ( 9/455) | ( 21/455) | ( 7/455) | ||
i | 0.0% | 76.4% | 2.0% | 3.8% | 0.3% | |
入 | ( 0/289) | (221/289) | ( 6/289) | ( 11/289) | ( 1/289) | |
u | 1.4% | 0.9% | 52.6% | 9.7% | 4.3% | |
力 | ( 3/205) | ( 2/205) | (108/205) | ( 20/205) | ( 9/205) | |
e | 0.4% | 4.8% | 3.0% | 84.1% | 0.0% | |
( 1/227) | ( 11/227) | ( 7/227) | (191/227) | ( 0/227) | ||
o | 1.2% | 0.0% | 4.4% | 0.3% | 88.6% | |
( 4/318) | ( 0/318) | ( 14/318) | ( 1/318) | (282/318) |
出力 | ||||||
a | i | u | e | o | ||
a | 80.6% | 0.0% | 4.1% | 4.7% | 2.0% | |
(393/487) | ( 0/487) | ( 20/487) | ( 23/487) | ( 10/487) | ||
i | 0.0% | 73.9% | 1.1% | 7.9% | 0.3% | |
入 | ( 0/265) | (196/265) | ( 3/265) | ( 21/265) | ( 1/265) | |
u | 6.0% | 3.5% | 43.2% | 6.0% | 4.0% | |
力 | ( 12/199) | ( 7/199) | ( 86/199) | ( 12/199) | ( 8/199) | |
e | 0.8% | 9.0% | 2.8% | 78.6% | 0.4% | |
( 2/244) | ( 22/244) | ( 7/244) | (192/244) | ( 1/244) | ||
o | 2.6% | 0.0% | 3.9% | 1.5% | 83.7% | |
( 10/381) | ( 0/381) | ( 15/381) | ( 6/381) | (319/381) |
これから次のような結果が示される。
ここでは各発話様式の差を音素認識誤り率で評価した。音素モデルとして混合連続分布型HMMを用い 、認識アルゴリズムにはViterbiサーチを用いた。ただし、融合ラベルを付 与された音素は実験では用いなかった。また学習データとして単語 発声から視察によって切り出した音素を使用した場合と、同一発話 様式の音声データから視察によって切り出した音素を使用した場合 の、2種類の実験を行なった。
実験は表6.7とほぼ同一である。たたし、 学習データに単語発声を使用した場合、HMMの混合数は 10 mixtures で、その他は 3 mixtures である。学習データに単語発声を使用した場 合の、各発声様式における音素認識誤り率を、図6.14に示す。 また、同一発話様式の音声データを2つに わけ、一方を学習データとし、一方をテストデータとして実験した場 合の音素認識誤り率を、図6.15に示す。 これから次のような結果が示される。