次へ: 音声認識 上へ: pap 戻る: 表一覧目次

はじめに

人々が同時に会話をするような場面で，全ての話者の音声を聞き分けて，認識できるシステムの実現が望まれる．このようなシステムの基本として，2話者が同時に発声する状況を想定したクロストーク音声認識が挙げられる．クロストーク音声認識は技術的に困難な課題であるが，重要な技術のひとつであると考えている．過去の研究では，複数のマイクロフォンを用いる手法が一般的に用いられている[1]．しかし，話者よりもマイクロフォンの数が少ない時や，同一方向からの重畳された音声を認識する場合には対応できない．そこで，人間が1つの耳だけで複数の音声を聞き分けることができるように，単一のマイクロフォンを使った認識システムの改良が望まれている．

岡本らの研究では，男女2話者が別々の単語を同時に発声した場合に，単一のマイクロフォンを使用した状況を想定し，音声認識ツールのHTK[5]を用いた同時発話認識率の調査が行われた．同時発話認識率とは，クロストーク音声の男性話者と女性話者の発話内容を同時に認識できた場合の認識率である．計算機で重畳したクロストーク音声に対し，男女別々のHMMを用いて認識を行う単純法は，56%となった．男性話者と女性話者それぞれのHMMを用いたマルチパス法は，45%となった．しかし，この2つの手法は，クロストーク音声において，男性話者の音声と女性話者の音声を個別に考える点から妥当性がない．クロストーク音声が男女それぞれの話者の音声を重畳したにも関わらず，時間によって男性話者，女性話者のどちらか一方の音声を認識するからである．

そこで，クロストーク音声認識に雑音対策の認識手法であるParallel Model Combination 法(以下，PMC法)が適用された[2]．この手法のHMMは，音声と雑音がスペクトル領域で加算の関係にあるという仮定のもと，無雑音音声のHMMと雑音のHMMを合成して作成する．クロストーク音声認識に適用する場合，クロストーク音声の片側音声を雑音モデルと考える．PMC法が男女それぞれの音声信号の和として認識を行うため，単純法，マルチパス法の問題点が解決できる．認識実験では，PMC法のモデルは男性HMMと女性HMMを音素単位で相互にパスを繋ぎ，単純法とマルチパス法と同じ条件で行われた．結果は，同時発話認識率が10%という低い結果になった．この原因として，HMMの状態数と混合分布数を増やした場合に未対応だった点と，パラメータ合成を行わず未完成であった点が挙げられる．クロストーク音声認識におけるパラメータ合成とは，HMM合成のために，ケプストラ厶領域での男性HMMと女性HMMをスペクトル領域に変換し，加算し元に戻すことである． HMM合成をする場合スペクトル領域で加算を行う必要があり，特徴パラメータのMFCCではHMMがケプストラ厶領域のためパラメータ合成を必要とする．しかし，特徴パラメータのFBANKでは，HMMがスペクトル領域のために必要がない．

そこで本研究では，特徴パラメータFBANKを用いて，スペクトル領域で混合分布の加算を行う手法を提案する．男性HMMと女性HMMを交差させたモデルを作り，時間と合わせた３次元モデルを作り認識を行う．次に，特徴パラメータMFCCで，PMC法の認識率を求める. 結果は，提案手法の認識率が13%になり，PMC法の認識率は10%という結果になった．提案手法では，1state 1mixtureの結果に比べ，よくなっていることから認識ができているといえるが， PMC法では，混合分布数を増やしても認識率が上がらない結果となり，PMC法を見直す必要がある．

以降，2章で音声認識について説明し，3章でクロストーク音声認識と認識手法について説明する．4章で認識実験の説明をして，5章に実験結果として認識結果を示し，6章に考察を述べる．

平成24年3月20日