next up previous contents
次へ: HMMによる音声認識 上へ: 音響分析 戻る: MFCC   目次

FBANK

人の聴覚は,音の高さに関して,メル尺度に 近い非線型の特性を示し,低い周波数では細かく,高い周波数では荒い周波数分解 能力を持つ.

FBANK(フィルタバンク対数パワー)は音声周波数に対してFFTスペクトルを求め,パワーケプストラムの全域に,人間の聴覚の特性にあわせて低周波部分は細かく,高周波部分は大まかに調べるためメルスケールに沿って等間隔 に配置された三角関数のフィルタをかける. この三角関数の個数がフィルタバンクのチャンネルのチャンネル数(特徴パラメータにおける次数)を表している.周波数メル分割の式は

\begin{displaymath}
Mel(f) = 2592 \log_{10}
( 1 + \frac{f}{700} )
\end{displaymath} (11)

となる. そして,フィルタバンクの出力に log 対数パワーを求めたものがFBANKであり, 特徴パラメータにフォルマント成分及びピッチ成分が含まれる.これにより,音 声の特徴をより正確に表現できる.

FBANKは混合ガウス分布にFull-covarianceを用いた場合にMFCCよりも認識率が高 いことが知られている[7].

本研究において,基本周波数16KHzの音に対してFBANK24次+対数パワーの形で 用いる.



平成19年5月7日