next up previous contents
次へ: フーリェ変換 上へ: repo 戻る: 表一覧   目次

はじめに

従来の音声認識において,主にMFCCを用いており,音声情報の1つである位相情報は,認識率に影響を及ぼさないとされてきた.その原因として,人間の聴覚が,通常の静かな環境下において, パワースペクトルには敏感であるが,位相情報には鈍感であるため,位相差を知覚 できないからである.しかし,過去の研究では,特徴パラメータ(MFCC)に位相情報 を加えることにより,認識精度が向上すると報告されている[8].

一方で,一般的に,各フレームの初期位相によって,特徴パラメータは変化する 事が知られている.その変化が認識精度に与える影響は考察されていない.

そこで本研究では,各フレームの初期位相を均一にして特徴抽出を行う.この手 法として,従来の音声認識において,ケプストラム計算のために用いていたFFT を使用する.FFTで窓かけの処理をし,各フレームごとにパワースペクトルの最大値を求め,パワースペクトルの最大値での周波数を基に位相スペクトルを計算し,フレームをずらすポイントを決定する. そして,各フレームにおける初期位相を均一にする.後は,従来手法と同様に,FFTでケプストラム計算をし,特徴抽出を行う.

本研究では,初期位相を0[rad]にして,均一にする.

実験の結果,4話者平均において,初期位相の標準化を行った場合の認識精度が 88.43%,行わなかった場合の認識精度が87.80%となり,認識率は低下したが, mms,ftkの2話者の認識率は向上したので,不連続となったフレームを連続にす るなどの手法を加えた認識実験を行うことにより,認識率の向上が見込まれる.



平成21年3月17日