next up previous contents
次へ: MFCC 上へ: 音響分析 戻る: 特徴抽出   目次

ケプストラム分析

もし,音声の言語情報が声道の形状による共振特性によって担われていると仮 定すれば,分析によって抽出する特性は,まずそのスペクトル包絡である.

時間(波形)的には,音声波形は音源波形と声道共振系のインパルス応答との畳込 みで表現される.したがって,周波数次元では両者の特性の積で表される.

音源と共振系の特性を分離して抽出する方法は逆畳込みと呼ばれる.

その方法の1つがケプストラム(cepstrum)分析である.

ケプストラム $ c(\tau) $ は, 波形の短時間振幅スペクトル $ \vert
S(e^{j\omega}) \vert $ の対数の逆フーリエ変換として定義される.音源のスペクト ラムを $ G(e^{j\omega}) $ ,声道共振系のインパルス応答の伝達特性を $ H(e^{j\omega}) $ とすると次の関係が得られる.

\begin{displaymath}
S(e^{j\omega}) = G(e^{j\omega}) H(e^{j\omega})
\end{displaymath} (6)

この対数を取ると,
\begin{displaymath}
log \vert S(e^{j\omega}) \vert = log \vert G(e^{j\omega}) \vert log \vert H(e^{j\omega}) \vert
\end{displaymath} (7)

となる.次にこれをフーリエ逆変換すると,
\begin{displaymath}
c(\tau) = {\cal F}^{-1} log \vert S(e^{j\omega}) \vert
= {...
...\omega}) \vert
+ {\cal F}^{-1} log \vert H(e^{j\omega}) \vert
\end{displaymath} (8)

となり,これがケプストラムである.

離散フーリエ変換(DFT)で求めると,

\begin{displaymath}
c_n = \frac{1}{N} \sum_{k=0}^{N-1} log \vert S(k) \vert e^{j 2 \pi k n / N} (0 \le n \le N-1)
\end{displaymath} (9)

となる.

従来の音声認識では,特徴パラメータとしてケプストラムが使われてきた,ケプストラムは低次にフォルマント情報を高次にピッチ情報を含んでいる.しかしピッチ情報は正確なピッチ周波数の抽出が困難であるため,音声認識ではフォルント情報しか用いられていない.



平成19年5月7日