従来の音声認識ではMFCCを主に使用しており,音声に含まれている位相情報は無
視されている.しかし近年,位相情報と併用することで認識精度の向上が報告さ
れている[1].また,話者認識の分野でも精度向上が報告されている
[2].このため,位相情報を利用した特徴量に着目する.
位相情報は,音源波形の特徴によって大きく影響を受け,声道の形によっても影響さ
れる.一般に使用される特徴抽出では離散フーリェ変換は以下の式で表される
(式8と同様).
ここで,同じ角周波数 でも切り出す位置によって位相情報 が異なってしまう問題が生じる. また, 位相パラメータはの範囲を超える場合がありえ, と ではが小さい場合に, 本来位相差が小さいにも関わらず と,大き な差として比較されてしまう(本来は0に近い値である).これは位相が連続値で ないために生じる問題である. このため本研究では,に対して とという変換を行い,に対応する座標値として位相情 報を用いる. つまり,離散フーリェ変換は複素数として出力されるため,振幅の情報と位相の 情報がある.図4に複素数平面における情報を示す.
従来の特徴量抽出では,絶対値をとったパワースペクトル(振幅情報)のみが使用 されているため,位相の情報を除外している.