特徴パラメータ抽出を行う方法をとして実用的なものに フィルタバンク分析(filter bank analysis)と線形予測符号化(linear predictive cording)がある。 本実験では、ハードウェアによる実時間分析の実現が容易であることから フィルタバンク分析を用いて特徴パラメータ抽出を行う。
特徴パラメータは通常、ケプストラム、メルケプストラムなどが用いられている。 人の聴覚は、音の高さに関して、メル(mel)尺度と呼ばれる対数に近い非線形の 特性を示し、低い周波数では細かく、高い周波数では荒い周波数分解能をもつ。 このため、音声認識の分野において特徴パラメータにメルケプストラムが広く用 いられている。 本実験でもメルケプストラムを特徴パラメータとして使用している。
フィルタバンク分析を用いた特徴パラメータ抽出の基本的な方法を以下に述べる。
このほかにも、デルタケプストラム(MFCCの一次差分、 2#2MFCC)や、対数パワー(3#3)、デルタ対数パワー (3#3の一次差分, 4#4)などがある。
本実験では、MFCC(16次)、2#2MFCC(16次)、
3#3(1次)、
4#4(1次)の計34次のパラメータを特徴パラ
メータとして使用している[4]。