文字入力インタフェースの一つとして,音声認識という手法が研究されている. これは音声による入力が,キーボードなどから手を使用して入力するよりも簡易 で早いためである.また,同時に別の作業を行う場合など,手を使用できない状 況においても,音声によって入力が可能となる. 主な使用例として,カーナビゲーション(音声による操作,目的 地の入力),携帯端末に対する入力(情報検索時,文章入力),音声対話受付案内 システムなどがある.
音声認識システムは以下の処理を必要とする.入力となる音声に対するモデル の作成,音声から抽出された特徴量の時系列に対する尤度の計算,そして計算さ れた尤度を最大にするモデル(文字列)の出力である. 特に特徴量の抽出に関して,これまで音声認識の分野では人の聴覚原理に基づい て研究されている[4].そして人の聴覚は位相の変化に鈍感であるため, 位相情報は必要ないとされていた. 従来の音声認識では,MFCC(Mel frequency cepstral coefficients)が一般的な 特徴量として使用されている.この特徴量は,音声に含まれている位相情報を使 用していない.しかし,位相情報と併用することで認識精度の向上が報告されて いる[1].また,話者認識の分野でも精度向上が報告されている [2]. そこで本研究では,位相情報を含む特徴量を用いて単語音声認識の実験を行い, 認識精度の向上を目指す.