next up previous contents
次へ: ケプストラム 上へ: 音声分析 戻る: 音声の生成構造   目次

音声の特徴抽出

音声認識のための信号分析の目的は,与えられた信号を生成した調音フィルタの性質を信号より推定することにあり,信号の周波数領域における表現がその基礎を与える. 音声から連続する数十ms程度の時間長の信号区間を切り出し,切り出された信号が定常確率過程に従うと仮定して,スペクトル解析を行う.すなわち,与えられた信号$ s(n) $に長さ$ N $の分析窓を掛けることで以下のように信号系列$ s_w(m;l) $を取り出す.
\begin{displaymath}
s_w(m;l)=\sum_{m=0}^{N-1} w(m) s(l+m) (l = 0, T, 2T, \cdots)
\end{displaymath} (2)

ここで,添え字$ l $は,信号の切出し位置に対応している.すなわち,$ l $を一定間隔$ T $っで増加されることで,定常とみなされる長さNの音声信号系列 $ s_w(n) (n = 0,\cdots,N-1) $が間隔$ T $で得られる.この処理はフレーム化処理と呼ばれ,$ N $をフレーム長,$ T $をフレーム間隔と呼ぶ.また,フレーム化処理を行う窓関数$ w(n) $としては,ハミング窓やハニング窓がしばしば用いられる.

\begin{displaymath}
ハミング窓:w(n) = 0.54 - 0.46 \cos ( \frac{2n \pi}{N - 1} ) (n = 0,\cdots,N-1)
\end{displaymath} (3)


\begin{displaymath}
ハニング窓:w(n) = 0.5 - 0.5 \cos ( \frac{2n \pi}{N - 1} ) (n = 0,\cdots,N-1)
\end{displaymath} (4)

フレーム化処理によって得られた音声信号系列の短時間フーリエスペクトルは,離散フーリエ変換(DTFT)により以下で与えられる.
\begin{displaymath}
S( e^j \omega) = \sum_{n=0}^{N-1} s_w(n) e^{-j \omega n}
\end{displaymath} (5)

実際の信号処理過程では,離散フーリエ変換(DFT)をその高速算法であるFFTを用いて実行し,当該音声区間のスペクトル表現とすることtが一般的である.すなわち

\begin{displaymath}
S'(k) = S( e^{j \frac{2 \pi}{N} k} ) = \sum_{n=0}^{N-1} s_w(n) e^{-j \frac{2 \pi}{N} kn} (k = 0, \cdots , N - 1)
\end{displaymath} (6)

なる複素数系列 $ S'(k) $ が音声のスペクトル表現として最も一般的に用いられる.音声信号の音素的特徴は主として調音フィルタの振幅伝達特性に含まれている.したがって,音声認識においては,音声信号の振幅スペクトル,あるいはその2乗値であるパワースペクトルが注目すべきスペクトル表現である.



平成16年4月17日