次へ: フーリェ変換 上へ: repo 戻る: 表一覧目次

はじめに

従来の音声認識において，主にMFCCを用いており，音声情報の1つである位相情報は，認識率に影響を及ぼさないとされてきた.その原因として，人間の聴覚が，通常の静かな環境下において，パワースペクトルには敏感であるが，位相情報には鈍感であるため，位相差を知覚できないからである．しかし，過去の研究では，特徴パラメータ（MFCC）に位相情報を加えることにより，認識精度が向上すると報告されている[8]．

一方で，一般的に，各フレームの初期位相によって，特徴パラメータは変化する事が知られている．その変化が認識精度に与える影響は考察されていない.

そこで本研究では，各フレームの初期位相を均一にして特徴抽出を行う．この手法として，従来の音声認識において，ケプストラム計算のために用いていたFFT を使用する．FFTで窓かけの処理をし，各フレームごとにパワースペクトルの最大値を求め，パワースペクトルの最大値での周波数を基に位相スペクトルを計算し，フレームをずらすポイントを決定する．そして，各フレームにおける初期位相を均一にする．後は，従来手法と同様に，FFTでケプストラム計算をし，特徴抽出を行う．

本研究では，初期位相を0[rad]にして，均一にする．

実験の結果，4話者平均において，初期位相の標準化を行った場合の認識精度が 88.43%，行わなかった場合の認識精度が87.80%となり，認識率は低下したが， mms，ftkの2話者の認識率は向上したので，不連続となったフレームを連続にするなどの手法を加えた認識実験を行うことにより，認識率の向上が見込まれる．

平成21年3月17日