next up previous contents
次へ: ケプストラム分析 上へ: 音響分析 戻る: 音響分析   目次

特徴抽出

音声は,様々な音素に対応する言語音から構成されており,信号の性質が常に変化 している非定常信号であるが,100分の1秒程度の短時間区間では一応定常的な信 号とみなすことが出来るので,音声信号のスペクトル分析において定常過程に対 するスペクトル推定の方法を利用することが出来る.

人間も音声を聞きとる際に,スペクトル分析を行っていると考えられている. 認識においても短時間スペクトル分析が重要であると考えられる. 音声認識を行うためには,まず, 音声区間の検出を行うことが必要であり, 音声は,声帯による音源(有声音源,無声音源)の成分に喉から口にかけての声 道の形状によって調音されることによって生成される. このため,音声の短時間スペクトルは,音源に対応する,周波数方向に細かく変 化する成分(微細構造)と,声道の形状による調音に対応する,緩やかに変化す る成分(スペクトル包絡)の積となる.

音声の認識において重要な音韻性の識別に必要な情報は,スペクトル包絡に集中 している.このため,短時間スペクトルからスペクトル包絡を抽出する方法が重要と なる.

スペクトル分析の手法としては, 音声から連続する数十ms程度の時間長の信号 区間を切り出し, 短時間スペクトル(密度)を抽出して用いる.切り出された信号が定常確率過程に従うと仮定して 与えられた信号$ s(n) $に長さ$ N $の分析窓を掛けることで以下のように信号系列$ s_w(m;l) $を取り出す.

\begin{displaymath}
s_w(m;l)=\sum_{m=0}^{N-1} w(m) s(l+m) (l = 0, T, 2T, \cdots)
\end{displaymath} (1)

ここで,添え字$ l $は,信号の切出し位置に対応している.すなわち,$ l $を一定間隔$ T $っで増加されることで,定常とみなされる長さNの音声信号系列 $ s_w(n) (n = 0,\cdots,N-1) $が間隔$ T $で得られる.この処理はフレーム化処理と呼ばれ,$ N $をフレーム長,$ T $をフレーム間隔と呼ぶ.また,フレーム化処理を行う窓関数$ w(n) $としては,ハミング窓やハニング窓がしばしば用いられる.

\begin{displaymath}
ハミング窓:w(n) = 0.54 - 0.46 \cos ( \frac{2n \pi}{N - 1} ) (n = 0,\cdots,N-1)
\end{displaymath} (2)


\begin{displaymath}
ハニング窓:w(n) = 0.5 - 0.5 \cos ( \frac{2n \pi}{N - 1} ) (n = 0,\cdots,N-1)
\end{displaymath} (3)

フレーム化処理によって得られた音声信号系列の短時間フーリエスペクトルは,離散フーリエ変換(DTFT)により以下で与えられる.
\begin{displaymath}
S( e^j \omega) = \sum_{n=0}^{N-1} s_w(n) e^{-j \omega n}
\end{displaymath} (4)

実際の信号処理過程では,離散フーリエ変換(DFT)をその高速算法であるFFTを用いて実行し,当該音声区間のスペクトル表現とすることtが一般的である.すなわち

\begin{displaymath}
S'(k) = S( e^{j \frac{2 \pi}{N} k} ) = \sum_{n=0}^{N-1} s_w(n) e^{-j \frac{2 \pi}{N} kn} (k = 0, \cdots , N - 1)
\end{displaymath} (5)

なる複素数系列 $ S'(k) $ が音声のスペクトル表現として最も一般的に用いら れる. FFTの結果に対して,各周波数の大きさ成分を二乗してパワースペクトルに変換 することが多い.



平成19年5月7日