音声の特徴量抽出

次へ: ケプストラム分析 上へ: 音声分析 戻る: 音声分析目次

音声の特徴量抽出

音声波形は，そのもの全てを用いたのでは情報量が多すぎる．そのため，音声から切り出された短時間の信号が定常確率過程に従うと仮定して，スペクトル解析を行う．すなわち，与えられた信号に長さの分析窓を掛けることで以下のように信号系列を取り出す．

$\begin{displaymath} s_w(m;l)=\sum_{m=0}^{N-1} w(m) s(l+m) (l = 0, T, 2T, \cdots) \end{displaymath}$

(7)

ここで，添え字は，信号の切出し位置に対応している．すなわち，を一定間隔で増加させることで，定常とみなされる長さNの音声信号系列 $s_w(n) (n = 0,\cdots,N-1)$ が間隔で得られる．この処理はフレーム化処理と呼ばれ，をフレーム長，をシフト幅と呼ぶ．また，フレーム化処理を行う窓関数としては，ハミング窓やハニング窓がしばしば用いられるが，本研究では使用しない(直接切り出した波形について直接処理を行う)ため，説明は割愛する．フレーム化処理によって得られた音声信号系列の短時間フーリエスペクトルは，離散フーリエ変換(DFT)により以下で与えられる．

$\begin{displaymath} S( e^{j \omega}) = \sum_{n=0}^{N-1} s_w(n) e^{-j \omega n} \end{displaymath}$

(8)

実際の信号処理過程では，離散フーリエ変換(DFT)をその高速算法であるFFTを用いて実行し，当該音声区間のスペクトル表現とすることが一般的である．すなわち，

$\begin{displaymath} S'(k) = S( e^{j \frac{2 \pi}{N} k} ) = \sum_{n=0}^{N-1} s_w(n) e^{-j \frac{2 \pi}{N} kn} (k = 0, \cdots , N - 1) \end{displaymath}$

(9)

なる複素数系列が音声のスペクトル表現として最も一般的に用いられる．音声信号の音素的特徴は主として調音フィルタの振幅伝達特性に含まれている．従って，音声認識においては，離散フーリェ変換の出力の絶対値であるパワースペクトルが注目すべきスペクトル表現である．このパワースペクトル (FFTpower)についても特徴量として扱う．

平成25年10月13日