next up previous contents
次へ: HMMによる音声認識 上へ: 音響分析 戻る: MFCC   目次

FBANK

音声認識では,音声データに対して特徴パラメータ抽出を行い,スペクトルパラ メータに変換したものを扱う.特徴パラメータ抽出を行う方法として,フィルタ バンク分析(filter bank analysis)と線形予測符号化(linear predictive cording)がある.本研究ではフィルタバンク分析を用いる.

FBANKは音声波形をフーリエ変換して得られたパワースペクトラムの周波 数を使用する. 音声波形をフーリエ変換して得られたパワースペクトラムの周波数の全域に, メルスケールに沿って等間隔に配置された三角形のフィルタをかける.この三角 形の個数がフィルタバンクのチャンネル数(特徴パラメータにおける次数)を表し ている.そして,フィルタバンクの出力に$log$対数をとったものをFBANKとし, 特徴パラメータとして使用する.周波数メル分割の式は以下のようになる.

\begin{displaymath}
Mel(f) = 2595\log_{10}(1+\frac{f}{700})
\end{displaymath} (3)



平成20年3月11日