一方で,一般的に,各フレームの初期位相によって,特徴パラメータは変化する 事が知られている.その変化が認識精度に与える影響は考察されていない.
そこで本研究では,各フレームの初期位相を均一にして特徴抽出を行う.この手 法として,従来の音声認識において,ケプストラム計算のために用いていたFFT を使用する.FFTで窓かけの処理をし,各フレームごとにパワースペクトルの最大値を求め,パワースペクトルの最大値での周波数を基に位相スペクトルを計算し,フレームをずらすポイントを決定する. そして,各フレームにおける初期位相を均一にする.後は,従来手法と同様に,FFTでケプストラム計算をし,特徴抽出を行う.
本研究では,初期位相を0[rad]にして,均一にする.
実験の結果,4話者平均において,初期位相の標準化を行った場合の認識精度が 88.43%,行わなかった場合の認識精度が87.80%となり,認識率は低下したが, mms,ftkの2話者の認識率は向上したので,不連続となったフレームを連続にす るなどの手法を加えた認識実験を行うことにより,認識率の向上が見込まれる.