人間も音声を聞きとる際に,スペクトル分析を行っていると考えられている. 認識においても短時間スペクトル分析が重要であると考えられる. 音声認識を行うためには,まず, 音声区間の検出を行うことが必要であり, 音声は,声帯による音源(有声音源,無声音源)の成分に喉から口にかけての声 道の形状によって調音されることによって生成される. このため,音声の短時間スペクトルは,音源に対応する,周波数方向に細かく変 化する成分(微細構造)と,声道の形状による調音に対応する,緩やかに変化す る成分(スペクトル包絡)の積となる.
音声の認識において重要な音韻性の識別に必要な情報は,スペクトル包絡に集中 している.このため,短時間スペクトルからスペクトル包絡を抽出する方法が重要と なる.
スペクトル分析の手法としては, 音声から連続する数十ms程度の時間長の信号
区間を切り出し,
短時間スペクトル(密度)を抽出して用いる.切り出された信号が定常確率過程に従うと仮定して
与えられた信号に長さの分析窓を掛けることで以下のように信号系列を取り出す.
(1) |
ここで,添え字は,信号の切出し位置に対応している.すなわち,を一定間隔っで増加されることで,定常とみなされる長さNの音声信号系列
が間隔で得られる.この処理はフレーム化処理と呼ばれ,をフレーム長,をフレーム間隔と呼ぶ.また,フレーム化処理を行う窓関数としては,ハミング窓やハニング窓がしばしば用いられる.
(2) |
(3) |
(4) |
実際の信号処理過程では,離散フーリエ変換(DFT)をその高速算法であるFFTを用いて実行し,当該音声区間のスペクトル表現とすることtが一般的である.すなわち
(5) |