次へ: 音声認識 上へ: paper5 戻る: 表一覧目次

はじめに

文字入力インタフェースの一つとして，音声認識という手法が研究されている．これは音声による入力が，キーボードなどから手を使用して入力するよりも簡易で早いためである．また，同時に別の作業を行う場合など，手を使用できない状況においても，音声によって入力が可能となる．主な使用例として，カーナビゲーション(音声による操作，目的地の入力)，携帯端末に対する入力(情報検索時，文章入力)，音声対話受付案内システムなどがある．

音声認識システムは以下の処理を必要とする．入力となる音声に対するモデルの作成，音声から抽出された特徴量の時系列に対する尤度の計算，そして計算された尤度を最大にするモデル(文字列)の出力である．特に特徴量の抽出に関して，これまで音声認識の分野では人の聴覚原理に基づいて研究されている[4]．そして人の聴覚は位相の変化に鈍感であるため，位相情報は必要ないとされていた．従来の音声認識では，MFCC(Mel frequency cepstral coefficients)が一般的な特徴量として使用されている．この特徴量は，音声に含まれている位相情報を使用していない．しかし，位相情報と併用することで認識精度の向上が報告されている[1]．また，話者認識の分野でも精度向上が報告されている [2]．そこで本研究では，位相情報を含む特徴量を用いて単語音声認識の実験を行い，認識精度の向上を目指す．

平成25年10月13日