next up previous contents
次へ: 実験データ 上へ: 認識実験 戻る: 初期位相を標準化した特徴抽出   目次

具体例

本研究では,各フレームのパワーが最大である周波数の初期位相を0[rad]にする. 以後,この処理を位相の標準化と呼ぶ.具体的な例を「悪口(w-a-r-u-g-u-ch-i)」 により示す.サンプリング周波数16kHzの「悪口(w-a-r-u-g-u-ch-i)」の音声波 形を図17に示す.音声波形にたいして,窓かけを行った結果を図18 音声波形の「u」の一部のフレームに対して,フーリェ変換した結果を図19に示す. 図19より,波形が周波数1.25[kHz]の時にパワーが最大であり,位相が2.83[rad] になる.そこで,位相を0[rad]にするために,フレームの先頭を0.375[ms]移動 する.図20に標準化前の波形と標準化後の波形を示す.

話者mauの5240単語のフレームごとの位相差と,移動するポイント,移動前後の フレームの先頭を付録に示す.

図 17: サンプリング周波数16kHzの「悪口(w-a-r-u-g-u-ch-i)」の音声波形
\fbox{\includegraphics[width=10cm,clip]{warukuchi.eps}}

図 18: 音声波形に対して窓かけをした図
\fbox{\includegraphics[width=12cm,clip]{madokake01.ps}}

図 19: 「u」の一部のフレームに対してFFTした波形
\fbox{\includegraphics[width=7cm,clip]{phase_u_fft.eps}}

図 20: 位相を標準化したフレームの一部
\fbox{\includegraphics[width=7cm,clip]{fig06.eps}}






















































平成21年3月17日