考察

実験結果の分析のため，音素認識の結果について調査した．使用している音素は母音が6種類(無音pauを除く)，子音が27種類である．結果は全ての単語に含まれている音素の合計(例:音声「aka」ではaを2回として計算)に対する認識結果である．実験条件は話者毎に統一しているため男性話者mxmについて分析を行った．表

に，パワースペクトル(FFTpower)と提案した特徴量(FFT_Real_Img)の音素認識の結果を示す．

**表 3:** 男性話者mxmの音素認識率 [%]
	FFTpower	FFT_Real_Img
母音	99.02	98.82
子音	85.96	79.49

以上の結果から，母音については特徴量による認識精度の差が少ないことが分かる．しかし，子音についてはその差が大きい．この原因として，学習に使用されたデータ数の差が考えられる．一般に発話された単語中に出現する音素としては，母音が多い．つまり，学習において十分な量が使用された母音では高い認識精度が得られ，学習データが不十分な子音において大きく認識精度が低下していると考えられる．表4に，実験において使用された母音と子音の学習データ数を示す．尚，話者毎に全ての実験において学習データの数と分布は同じ条件となる．

表 4: 話者mxmの音素と学習データの分布[%]

	音素		学習データ数
	N		553
	a		1785
	b		228
	by		4
	ch		143
	d		178
	e		836
	f		77
	g		275

音素		学習データ数
gy		14
h		237
hy		10
i		1668
j		193
k		1219
ky		58
m		492
my		4

音素		学習データ数
n		276
ny		9
o		1380
p		15
q		119
r		684
ry		41
s		588
sh		403

音素		学習データ数
t		373
ts		225
u		2385
w		88
y		202
z		125

図10に学習データに対する子音の音素認識率の分布を示す．

**図 10:** 学習データに対する子音の音素認識率[%]の分布
$\includegraphics[width=110mm]{result3.ps}$

このことから，特定の音素について著しい精度の減少が見られる．特に差の見られた音素について学習データと音素認識率を表5に示す．

**表 5:** 特に差が生じた同一音素に置ける認識率 [%]
音素(学習データ数)	パワースペクトルの結果	提案手法の結果
by(4)	25.0	0.0
gy(14)	64.3	23.1
p(15)	82.2	46.2
g(275)	92.2	79.5

いくつかの音素について提案手法の精度が向上していることも確認できたが，誤差の範囲だと考えられる．上記で示した音素については，大きな差が生じている．また，音素「g」の学習データは275であり，一概に学習データ数が影響しているとは言えない結果となった．
原因として，今回の実験環境では学習データが足りていないため，位相情報の有無に関わらず，特徴量の情報を最大限に活用できていないと考えられる．一方，今回提案した特徴量が，音声の特徴を表す情報として効果がないとも考えられる．そのため，学習データを増加させるだけでは，提案手法の有効性を示すことができない可能性がある．当面の課題としては，より多い学習データに対して実験を行い，提案した特徴量の有効性を検討したい．