認識精度(phone accuracy)から見た自由発話

次へ: まとめ 上へ: 話者ごとの自由発話の音響的な特徴 戻る: 発話速度からみた自由発話目次

認識精度(phone accuracy)から見た自由発話

ここでは自由発話と朗読発話の差を、連続音素認識実験を行ない音素正解率(phone correct)および音素認識精度(phone accuracy)[60],[15] （4.3.1.3節参照）で評価した。

実験条件

特定話者の同一発話様式の認識実験を行なうために、同一話者の同一発話様式の音声データの、文番号の奇数番目を学習データに偶数番目を評価データにした。学習プログラムには主に HTK Software Tools[15]を使用した。特徴パラメータにはLPCケプストラムを使用し、HMMには対角共分散の混合連続分布型を用いた。表 6.7 に実験条件を示す。

**表 6.7:** 音素認識の実験条件
認識対象	26 音素
サンプリング周波数	12kHz
話者	男性2名、女性2名のナレータ
学習データ	約50文
音響パラメータ	log power + 16次LPCcepstrum
	+ $\Delta$ log power + 16次 $\Delta$ cepstrum
フレーム窓長	20ms
フレーム周期	5ms
LPC分析	16次
打ち切り次数	16次
音素モデル	4-state 3-loop 3 mixture
	Gaussian continuous HMM (diagoal)

認識実験は以下のようにしておこなった。

学習データにおいて、融合ラベルが付与されなかった音素のみを切り出して Baum-Welchアルゴリズム[4]を用いてパラメータの再推定をする。学習回数は10回。
学習データを文単位で連結学習する。学習データは間投詞や言い直しを含む。学習回数は3回。
学習データと同一話者・同一発話様式の評価データを文単位で連続音素認識 (one-pass DP)する。なお評価データは間投詞や言い直しを含む。
評価データの音素ラベルを正解として、音素正解率(phone correct)と音素認識精度(phone accuracy) を計算する。

話者ごとの自由発話における音素認識率

図6.13に、認識実験の結果得られた音素正解率(phone correct)と音素認識精度(phone accuracy)を示す。また母音の音素認識誤り傾向を表6.8に示す。

**図 6.13:** 音素認識実験結果音素認識率(%)
$\begin{figure}\begin{center} \fbox{\epsfile{file=PS1/error-rate.ps,width=100mm}}\end{center}\end{figure}$

(a) 話者MTK (認識音素数/対象音素数)

**表 6.8:** 音素認識誤り傾向
		出力
		a	i	u	e	o
	a	83.1%	0.0%	1.5%	3%	7.5%
		(167/201)	( 0/201)	( 3/201)	( 6/201)	( 15/201)
	i	0.7%	85.1%	3.9%	3.9%	0.7%
入		( 1/128)	(109/128)	( 5/128)	( 5/128)	( 1/128)
	u	7.3%	4.8%	48.7%	2.4%	9.7%
力		( 6/ 82)	( 4/ 82)	( 40/ 82)	( 2/ 82)	( 8/ 82)
	e	3.0%	13.7%	1.5%	76.3%	2.2%
		( 4/131)	( 18/131)	( 2/131)	(100/131)	( 3/131)
	o	3.5%	0.7%	5.7%	2.8%	80.0%
		( 5/140)	( 1/140)	( 8/140)	( 4/140)	(112/140)

(b) 話者MMY (認識音素数/対象音素数)

		出力
		a	i	u	e	o
	a	93.2%	0.1%	0.7%	3.0%	1.1%
		(633/679)	( 1/679)	( 5/679)	( 21/679)	( 8/679)
	i	0.0%	81.4%	3.2%	4.9%	0.0%
入		( 0/426)	(347/426)	( 14/426)	( 21/426)	( 0/426)
	u	1.2%	4.0%	45.6%	3.4%	7.1%
力		( 4/320)	( 13/320)	(146/320)	( 11/320)	( 23/320)
	e	1.4%	3.4%	2.2%	83.4%	0.7%
		( 6/405)	( 14/405)	( 9/405)	(338/405)	( 3/405)
	o	1.5%	0.0%	1.7%	3.4%	88.5%
		( 8/522)	( 0/522)	( 9/522)	( 18/522)	(462/522)

		出力
		a	i	u	e	o
	a	83.7%	0.4%	1.9%	4.6%	1.5%
		(381/455)	( 2/455)	( 9/455)	( 21/455)	( 7/455)
	i	0.0%	76.4%	2.0%	3.8%	0.3%
入		( 0/289)	(221/289)	( 6/289)	( 11/289)	( 1/289)
	u	1.4%	0.9%	52.6%	9.7%	4.3%
力		( 3/205)	( 2/205)	(108/205)	( 20/205)	( 9/205)
	e	0.4%	4.8%	3.0%	84.1%	0.0%
		( 1/227)	( 11/227)	( 7/227)	(191/227)	( 0/227)
	o	1.2%	0.0%	4.4%	0.3%	88.6%
		( 4/318)	( 0/318)	( 14/318)	( 1/318)	(282/318)

(d) 話者FAK (認識音素数/対象音素数)

		出力
		a	i	u	e	o
	a	80.6%	0.0%	4.1%	4.7%	2.0%
		(393/487)	( 0/487)	( 20/487)	( 23/487)	( 10/487)
	i	0.0%	73.9%	1.1%	7.9%	0.3%
入		( 0/265)	(196/265)	( 3/265)	( 21/265)	( 1/265)
	u	6.0%	3.5%	43.2%	6.0%	4.0%
力		( 12/199)	( 7/199)	( 86/199)	( 12/199)	( 8/199)
	e	0.8%	9.0%	2.8%	78.6%	0.4%
		( 2/244)	( 22/244)	( 7/244)	(192/244)	( 1/244)
	o	2.6%	0.0%	3.9%	1.5%	83.7%
		( 10/381)	( 0/381)	( 15/381)	( 6/381)	(319/381)

これから次のような結果が示される。

自由発話は朗読発話と比較して、音素正解率も音素認識率も低下する。
自由発話の正解率(phone correct)は、65% $\sim$ 72%である。
自由発話の認識精度(phone accuracy)は、58% $\sim$ 63%である。
自由発話は朗読発話と比較すると認識精度は7% $\sim$ 10%程度低下する。
各音素の認識率をみると、母音の/u/の認識精度が他の音素と比較して低い。

発話様式の違いによる音素認識率
ここでは各発話様式の差を音素認識誤り率で評価した。音素モデルとして混合連続分布型HMMを用い、認識アルゴリズムにはViterbiサーチを用いた。ただし、融合ラベルを付与された音素は実験では用いなかった。また学習データとして単語発声から視察によって切り出した音素を使用した場合と、同一発話様式の音声データから視察によって切り出した音素を使用した場合の、2種類の実験を行なった。
実験は表6.7とほぼ同一である。たたし、学習データに単語発声を使用した場合、HMMの混合数は 10 mixtures で、その他は 3 mixtures である。学習データに単語発声を使用した場合の、各発声様式における音素認識誤り率を、図6.14に示す。また、同一発話様式の音声データを２つにわけ、一方を学習データとし、一方をテストデータとして実験した場合の音素認識誤り率を、図6.15に示す。これから次のような結果が示される。
1. 学習データが単語発話のとき、自由発話の音素認識誤り率は高い。朗読発声の音素認識誤り率と比較すると、ナレータMTKは約160% 程度増加し(21.6% $\rightarrow$ 37.6%)、ナレータFKN では約 240%も増加している (18.8% $\rightarrow$ 44.4%)。
2. 学習データに自由発話の音声を利用することにより、音素認識誤り率は大きく低下する(MTK:37.6% $\rightarrow$ 16.0%, FKN:44.4% $\rightarrow$ 15.0%)。学習データが単語発声のときの文の朗読発声の音素認識誤り率(MTK:21.6%, FKN:18.8%)より低くなる。
3. 自由発話を学習データとした場合、母音の中では/u/の認識誤り率が高い(MTK:43.9%, FKN:27.9%)。また、調査音素の数が少ないため明確ではないが、子音では/w/の認識誤り率が高い。 (MTK:78.9%, FKN:66.7%)、
4. 単語発声、文節単位の朗読発声、文単位の朗読発声、自由発話の順に音素認識誤り率が増加する。
5. 学習データが同一発話様式の場合、各発話様式において話者の相違はあまり見られないが、学習データが単語発話のとき、話者の相違が見られる。
図 6.14: 発話様式の違いによる音素認識誤り率（学習データ:単語発声）
$\begin{figure}\begin{center} \fbox{\epsfile{file=FIGURE/figure3.12.ps,width=100mm}}\end{center}\end{figure}$

図 6.15: 発話様式の違いによる音素認識誤り率（学習データ:同一発話様式）
$\begin{figure}\begin{center} \fbox{\epsfile{file=FIGURE/figure3.13.ps,width=100mm}}\end{center}\end{figure}$

**図 6.14:** 発話様式の違いによる音素認識誤り率（学習データ:単語発声）
$\begin{figure}\begin{center} \fbox{\epsfile{file=FIGURE/figure3.12.ps,width=100mm}}\end{center}\end{figure}$

**図 6.15:** 発話様式の違いによる音素認識誤り率（学習データ:同一発話様式）
$\begin{figure}\begin{center} \fbox{\epsfile{file=FIGURE/figure3.13.ps,width=100mm}}\end{center}\end{figure}$

次へ: まとめ 上へ: 話者ごとの自由発話の音響的な特徴 戻る: 発話速度からみた自由発話目次

Jin'ichi Murakami 平成13年1月5日