next up previous contents
次へ: 目次 上へ: paper5 戻る: paper5   目次

概要

従来の音声認識では,MFCC(Mel frequency cepstral coefficients)が一般的な 特徴量として使用されている.この特徴量は,音声に含まれている位相情報を使 用していない.しかし,位相情報と併用することで認識精度の向上が報告されて いる[1].また,話者認識の分野でも精度向上が報告されている [2]. そこで本研究では,位相情報を含む特徴量を用いて単語音声認識の実験を行い, 認識精度の向上を目指した.提案した特徴量は,離散フーリェ変換の出力に対し て,実数成分と虚数成分の値を独立した情報として扱う.通常,離散フーリェ変 換の出力は,実数成分と虚数成分について絶対値をとったパワースペクトルが使 用されるが,これは位相情報を含んでいないためである. 実験の結果,提案した位相情報を含む特徴量の単語認識率は 従来の特徴量に比べて認識精度が減少した.以上のことから,本研究で提 案した特徴量は位相情報を含んでいるが,認識精度には影響しないという結果と なった.



平成25年10月13日