次へ: 実験データ
上へ: 認識実験
戻る: 初期位相を標準化した特徴抽出
目次
本研究では,各フレームのパワーが最大である周波数の初期位相を0[rad]にする.
以後,この処理を位相の標準化と呼ぶ.具体的な例を「悪口(w-a-r-u-g-u-ch-i)」
により示す.サンプリング周波数16kHzの「悪口(w-a-r-u-g-u-ch-i)」の音声波
形を図17に示す.音声波形にたいして,窓かけを行った結果を図18
音声波形の「u」の一部のフレームに対して,フーリェ変換した結果を図19に示す.
図19より,波形が周波数1.25[kHz]の時にパワーが最大であり,位相が2.83[rad]
になる.そこで,位相を0[rad]にするために,フレームの先頭を0.375[ms]移動
する.図20に標準化前の波形と標準化後の波形を示す.
話者mauの5240単語のフレームごとの位相差と,移動するポイント,移動前後の
フレームの先頭を付録に示す.
図 17:
サンプリング周波数16kHzの「悪口(w-a-r-u-g-u-ch-i)」の音声波形
|
図 19:
「u」の一部のフレームに対してFFTした波形
|
平成21年3月17日