next up previous contents
次へ: FBANK 上へ: 音声分析 戻る: 音声の特徴抽出   目次

ケプストラム

音声のパワースペクトラムは,声帯の振動や,摩擦による乱流などの音源信号に調音フィルタが畳み込まれたものであり,音素の音響的な特徴は,調音フィルタの振幅伝達特性によって,主として担われている.このため,音声信号から音素の特徴を抽出するためには,観測された音声のパワースペクトラムから,音源信号のスペクトルと,調音フィルタのスペクトルを分離し,調音フィルタの特性にのみ関連する情報を抽出すれば良い.しかし音声信号から聴音フィルタを分離する問題は,出力信号 $ y(n) = x(n) * h(n) $ から,入力信号 $ x(n) $ とシステムの伝達関数 $ h(n) $ を分離する問題である.

ケプストラム(cepstrum) $ c(\tau) $ は, 波形の短時間振幅スペクトル $ \vert S(e^{j\omega}) \vert $ の対数の逆フーリエ変換として定義される.音源信号のスペクトラムを $ G(e^{j\omega}) $ ,調音フィルタの伝達特性を $ H(e^{j\omega}) $ とすると次の関係が得られる.

\begin{displaymath}
S(e^{j\omega}) = G(e^{j\omega}) H(e^{j\omega})
\end{displaymath} (7)

この対数を取ると,
\begin{displaymath}
log \vert S(e^{j\omega}) \vert = log \vert G(e^{j\omega}) \vert log \vert H(e^{j\omega}) \vert
\end{displaymath} (8)

となる.次にこれをフーリエ逆変換すると,
\begin{displaymath}
c(\tau) = {\cal F}^{-1} log \vert S(e^{j\omega}) \vert
= {...
...\omega}) \vert
+ {\cal F}^{-1} log \vert H(e^{j\omega}) \vert
\end{displaymath} (9)

となり,これがケプストラムである.離散フーリエ変換(DFT)で求めると,
\begin{displaymath}
c_n = \frac{1}{N} \sum_{k=0}^{N-1} log \vert S(k) \vert e^{j 2 \pi k n / N} (0 \le n \le N-1)
\end{displaymath} (10)

となる.

ケプストラムという言葉は,スペクトルを逆変換するという意味から,spectrumをもじって作った造語であり,その変数はfrequencyをもじってケフレンシー(quefrency)と呼ばれる [2] .

従来の音声認識では,特徴パラメータとしてケプストラムが使われてきた.ケプストラムは低次にフォルマント情報を高次にピッチ情報を含んでいる.しかしピッチ情報は正確なピッチ周波数の抽出が困難であるため,音声認識ではフォルント情報しか用いられていない.



平成16年4月17日