next up previous contents
次へ: ケプストラム分析 上へ: 音声分析 戻る: 音声分析   目次

音声の特徴量抽出

音声波形は,そのもの全てを用いたのでは情報量が多すぎる. そのため, 音声から切り出された短時間の信号が定常確率過程に従うと仮定して,ス ペクトル解析を行う. すなわち,与えられた信号$ s(n) $に長さ$ N $の分析窓を掛けることで以下の ように信号系列$ s_w(m;l) $を取り出す.


\begin{displaymath}
s_w(m;l)=\sum_{m=0}^{N-1} w(m) s(l+m) (l = 0, T, 2T, \cdots)
\end{displaymath} (7)

ここで,添え字$ l $は,信号の切出し位置に対応している.すなわち,$ l $を 一定間隔$ T $で増加させることで,定常とみなされる長さNの音声信号系列 $
s_w(n) (n = 0,\cdots,N-1) $が間隔$ T $で得られる.この処理はフレーム化処 理と呼ばれ,$ N $をフレーム長,$ T $をシフト幅と呼ぶ.また,フレーム化処 理を行う窓関数$ w(n) $としては,ハミング窓やハニング窓がしばしば用いられ るが,本研究では使用しない(直接切り出した波形について直接処理を行う)ため, 説明は割愛する. フレーム化処理によって得られた音声信号系列の短時間フーリエスペクトルは, 離散フーリエ変換(DFT)により以下で与えられる.


\begin{displaymath}
S( e^{j \omega}) = \sum_{n=0}^{N-1} s_w(n) e^{-j \omega n}
\end{displaymath} (8)

実際の信号処理過程では,離散フーリエ変換(DFT)をその高速算法であるFFTを用 いて実行し,当該音声区間のスペクトル表現とすることが一般的である.すな わち,


\begin{displaymath}
S'(k) = S( e^{j \frac{2 \pi}{N} k} ) = \sum_{n=0}^{N-1} s_w(n)
e^{-j \frac{2 \pi}{N} kn} (k = 0, \cdots , N - 1)
\end{displaymath} (9)

なる複素数系列 $ S'(k) $ が音声のスペクトル表現として最も一般的に用いら れる.音声信号の音素的特徴は主として調音フィルタの振幅伝達特性に含まれて いる.従って,音声認識においては,離散フーリェ変換の出力の絶対値であるパワー スペクトルが注目すべきスペクトル表現である.このパワースペクトル (FFTpower)についても特徴量として扱う.



平成25年10月13日