next up previous contents
次へ: HMM 上へ: HMMによる単語音声認識 戻る: HMMによる単語音声認識   目次


音声分析

音声認識では、通常、音声データに対して 特徴パラメータ抽出を行い、スペクトルパラメータに変換したものを扱う。

特徴パラメータ抽出を行う方法をとして実用的なものに フィルタバンク分析(filter bank analysis)と線形予測符号化(linear predictive cording)がある。 本実験では、ハードウェアによる実時間分析の実現が容易であることから フィルタバンク分析を用いて特徴パラメータ抽出を行う。

特徴パラメータは通常、ケプストラム、メルケプストラムなどが用いられている。 人の聴覚は、音の高さに関して、メル(mel)尺度と呼ばれる対数に近い非線形の 特性を示し、低い周波数では細かく、高い周波数では荒い周波数分解能をもつ。 このため、音声認識の分野において特徴パラメータにメルケプストラムが広く用 いられている。 本実験でもメルケプストラムを特徴パラメータとして使用している。

フィルタバンク分析を用いた特徴パラメータ抽出の基本的な方法を以下に述べる。

図: FFTに基づくメルスケール帯域フィルタバンク分析の手順
1#1

(1)
FFT(Fast Fourier Transform,高速フーリエ変換)によるスペクトルを元に、メル スケール上に等間隔に配置された帯域フィルタバンクの出力を抽出する。 この様子を図[*]に示す。

(2)
この出力を対数変換する。

(3)
逆フーリエ変換することによってケプストラム係数に 変換したパラメータをメル周波数ケプストラム係数(MFCC,Mel Frequency Cepstrum Coefficient)という。

このほかにも、デルタケプストラム(MFCCの一次差分、 2#2MFCC)や、対数パワー(3#3)、デルタ対数パワー (3#3の一次差分, 4#4)などがある。

本実験では、MFCC(16次)、2#2MFCC(16次)、 3#3(1次)、 4#4(1次)の計34次のパラメータを特徴パラ メータとして使用している[4]。


平成14年4月24日