時間(波形)的には,音声波形は音源波形と声道共振系のインパルス応答との畳込 みで表現される.したがって,周波数次元では両者の特性の積で表される.
音源と共振系の特性を分離して抽出する方法は逆畳込みと呼ばれる.
その方法の1つがケプストラム(cepstrum)分析である.
ケプストラム は, 波形の短時間振幅スペクトル
の対数の逆フーリエ変換として定義される.音源のスペクト
ラムを
,声道共振系のインパルス応答の伝達特性を
とすると次の関係が得られる.
(6) |
(7) |
(8) |
離散フーリエ変換(DFT)で求めると,
(9) |
従来の音声認識では,特徴パラメータとしてケプストラムが使われてきた,ケプストラムは低次にフォルマント情報を高次にピッチ情報を含んでいる.しかしピッチ情報は正確なピッチ周波数の抽出が困難であるため,音声認識ではフォルント情報しか用いられていない.