next up previous contents
次へ: LFCC 上へ: 特徴パラメータ 戻る: 特徴パラメータ   目次

MFCC

FFTによって計算されたそのままのスペクトルの類似度を用いることも可能であ るが, スペクトルの微細構造はピッチ等の影響を受けて不安定なため, これを平滑 化したスペクトラル崩落を用いることが多い. この平滑化の手法として良く知ら れているものにケプストラムによる方法がある.

MFCC(メル周波数ケプストラム係数)は, まず音声周波数に対してFFTスペクトルを求め,メルスケール上に等間隔に配置 された帯域フィルタバンクの出力を抽出する. そして,最終的に離散コサイン 変換し得られるケプストラム係数がMFCCである.

高次においてピッチ成分, 低次においてフォルマント成分が見られ, 通常は扱いや すさの観点から低次のフォルマント成分が使用される. これは, 言い換えれば声道 特性のみを用いていることになる.

$\displaystyle c_i = \sqrt{ \frac{2}{N} } \sum_{j=1}^N m_j \cos ( \frac{\pi i}{N} ( j - 0.5 ) )$ (32)

$ N $ はフィルタバンクチャンネルの数を表し,$ m_j $ は対数フィルタバンクの振 幅を表す.

平成21年3月17日