next up previous contents
次へ: 目次 上へ: repo 戻る: repo   目次

概要

従来の音声認識において,主にMFCCを用いており,音声情報の1つである位相情 報は,認識率に影響を及ぼさないとされてきた.その原因として,人間の聴覚が,通常の環境下において, パワースペクトルには敏感であるが,位相情報には鈍感であるため,位相差を知覚 できないからである ところで,一般的に各フレームの初期位相によって,特徴パラメータは変化する事が知られているが,その変化が認識精度に与える影響は考察されていない.

そこで本研究では,特徴抽出における各フレームの初期位相を均一にして,認 識実験を行い認識精度の変化を調査した.具体的には,各フレームのパワーが最大である周波数の初期位相を0[rad]にする.以後,この処理を初期位相の標準化と呼ぶ. 初期位相の標準化を行った場合と行わなかった場合の単語音声認識の結果,4話 者平均において,初期位相の標準化を行った場合の認識精度が88.43%,行わなかった 場合の認識精度が87.80%となった.



平成21年3月17日