next up previous contents
次へ: 本研究で提案する特徴量 上へ: 研究の着目点 戻る: 研究の着目点   目次

位相情報とは

従来の音声認識ではMFCCを主に使用しており,音声に含まれている位相情報は無 視されている.しかし近年,位相情報と併用することで認識精度の向上が報告さ れている[1].また,話者認識の分野でも精度向上が報告されている [2].このため,位相情報を利用した特徴量に着目する.
位相情報は,音源波形の特徴によって大きく影響を受け,声道の形によっても影響さ れる.一般に使用される特徴抽出では離散フーリェ変換は以下の式で表される (式8と同様).


\begin{displaymath}
S( e^{j \theta (\omega ,t)}) = \sum_{n=0}^{N-1} Input(n) e^{-j \theta (\omega ,t)}
\end{displaymath} (13)

ここで,同じ角周波数$\omega$ でも切り出す位置によって位相情報 $\theta (\omega,t)$ が異なってしまう問題が生じる. また, 位相パラメータ$\theta$$0〜2\pi$の範囲を超える場合がありえ, $\pi -\theta 1$ $\theta 2=-\pi +\theta 1$では$\theta 1$が小さい場合に, 本来位相差が小さいにも関わらず $\vert \pi -\theta 1-\theta 2 \vert =2\pi -2\theta 1$と,大き な差として比較されてしまう(本来は0に近い値である).これは位相が連続値で ないために生じる問題である. このため本研究では,$\theta 1$に対して$cos\theta 1$$sin\theta 1$という変換を行い,$\theta 1$に対応する座標値として位相情 報を用いる. つまり,離散フーリェ変換は複素数として出力されるため,振幅の情報と位相の 情報がある.図4に複素数平面における情報を示す.

図 4: 複素数平面における情報
\includegraphics[width=80mm]{fukuso.eps}

従来の特徴量抽出では,絶対値をとったパワースペクトル(振幅情報)のみが使用 されているため,位相の情報を除外している.



平成25年10月13日