next up previous contents
次へ: 研究の着目点 上へ: 音声分析 戻る: ケプストラム分析   目次

MFCC

最も一般的に使用されるケプストラムはMFCCC(Mel Frequency Cepstrum Coefficient)である.この特徴量は, パワースペクトルを少ない次数で効率的に表現するために,メル分割されたフィ ルタバンクの対数パワーを使用する.つまり, 人間の聴覚の特性にあわせて低周波部分は細かく,高周波部分は粗く調べるためメル スケールに沿って等間隔に配置された三角関数のフィルタをかける.この三角関 数の個数がフィルタバンクのチャンネルのチャンネル数(特徴量のベクトル数)を 表している.周波数メル分割の式は,


\begin{displaymath}
Mel(f) = 2592 \log_{10}
( 1 + \frac{f}{700} )
\end{displaymath} (11)

となる.このフィルタバンクの出力に対数をとったものをFBANKと呼ぶ. 最終的に,フィルタバンク分析により得られた出力を離散コサイ ン変換(逆フーリェ変換)することで,MFCCが求められる.


\begin{displaymath}
c_i = \sqrt{ \frac{2}{N} } \sum_{j=1}^N m_j \cos ( \frac{\pi i}{N} ( j - 0.5 ) )
\end{displaymath} (12)

$ N $はフィルタバンクチャンネル数を表し,$ m_j $は対数フィルタバンクの振幅を表す.



平成25年10月13日