next up previous contents
次へ: 特徴パラメータ 上へ: 音声認識 戻る: 音声認識   目次

音声の特徴抽出

音声認識のための信号分析は,与えられた信号を生成した調音フィルタの性質を 信号より推定し,信号の周波数領域における表現がその基礎を与える. 音声から連続する数十ms程度の時間長の信号区間を切り出し,切り出された信号が定常確率過程に従うと仮定して,スペクトル解析を行う.すなわち,与えられた信号$ s(n) $ に長さ$ N $ の分析窓を掛けることで以下のように信号系列$ s_w(m;l) $ を取り出す.

$\displaystyle s_w(m;l)=\sum_{m=0}^{N-1} w(m) s(l+m) (l = 0, T, 2T, \cdots)$ (2)

ここで,添え字$ l $ は,信号の切出し位置に対応している.すなわち,$ l $ を一定間隔$ T $ っで増加されることで,定常とみなされる長さNの音声信号系列 $ s_w(n) (n = 0,\cdots,N-1) $ が間隔$ T $ で得られる.この処理はフレーム化処理と呼ばれ,$ N $ をフレーム長,$ T $ をフレーム間隔と呼ぶ.また,フレーム化処理を行う窓関数$ w(n) $ としては,ハミング窓やハニング窓がしばしば用いられる.

$\displaystyle ハミング窓:w(n) = 0.54 - 0.46 \cos ( \frac{2n \pi}{N - 1} ) (n = 0,\cdots,N-1)$ (3)

$\displaystyle ハニング窓:w(n) = 0.5 - 0.5 \cos ( \frac{2n \pi}{N - 1} ) (n = 0,\cdots,N-1)$ (4)

フレーム化処理によって得られた音声信号系列の短時間フーリエスペクトルは,離散フーリエ変換(DTFT)により以下で与えられる.

$\displaystyle S( e^j \omega) = \sum_{n=0}^{N-1} s_w(n) e^{-j \omega n}$ (5)

実際の信号処理過程では,離散フーリエ変換(DFT)をその高速算法であるFFTを用いて実行し,当該音声区間のスペクトル表現とすることが一般的である.すなわち

$\displaystyle S'(k) = S( e^{j \frac{2 \pi}{N} k} ) = \sum_{n=0}^{N-1} s_w(n) e^{-j \frac{2 \pi}{N} kn} (k = 0, \cdots , N - 1)$ (6)

なる複素数系列 $ S'(k) $ が音声のスペクトル表現として最も一般的に用いられる.音声信号の音素的特徴は主として調音フィルタの振幅伝達特性に含まれている.したがって,音声認識においては,音声信号の振幅スペクトル,あるいはその2乗値であるパワースペクトルがスペクトル表現である[5].



平成20年5月16日