実験結果の分析のため,音素認識の結果について調査した.使用している音素は 母音が6種 類(無音pauを除く),子音が27種類である.結果は全ての単語に含まれている音 素の合計(例:音声「aka」ではaを2回として計算)に対する認識結果である. 実験条件は話者毎に統一しているため男性話者mxmについて分析を行った. 表に,パワースペクトル(FFTpower)と 提案した特徴量(FFT_Real_Img)の音素認識の結果を示す.
以上の結果から,母音については特徴量による認識精度の差が少ないことが分か る.しかし,子音についてはその差が大きい.この原因として,学習に使用され たデータ数の差が考えられる.一般に発話された単語中に出現する音素としては, 母音が多い.つまり,学習において十分な量が使用された母音では高い認識精度が 得られ,学習データが不十分な子音において大きく認識精度が低下していると考 えられる.表4に,実験において使用された母音と子音の学習 データ数を示す.尚,話者毎に全ての実験において学習データの数と分布は同じ 条件となる.
|
|
|
|
図10に学習データに対する子音の音素認識率の分布を示す.
このことから,特定の音素について著しい精度の減少が見られる.特に差の見ら れた音素について学習データと音素認識率を表5に示す.
音素(学習データ数) | パワースペクトルの結果 | 提案手法の結果 |
by(4) | 25.0 | 0.0 |
gy(14) | 64.3 | 23.1 |
p(15) | 82.2 | 46.2 |
g(275) | 92.2 | 79.5 |
いくつかの音素について提案手法の精度が向上していることも確認できたが,誤
差の範囲だと考えられる.上記で示した音素については,大きな差が生じている.
また,音素「g」の学習データは275であり,一概に学習データ数が影響している
とは言えない結果となった.
原因として,今回の実験環境では学習データが足りていないため,位相情報の有無に
関わらず,特徴量の情報を最大限に活用できていないと考えられる.
一方,今回
提案した特徴量が,音声の特徴を表す情報として効果がないとも考えられる.
そのため,学
習データを増加させるだけでは,提案手法の有効性を示すことができない可能性
がある.当面の課題としては,より多い学習データに対して実験を行い,提
案した特徴量の有効性を検討したい.