従来の研究

次へ: 認識手法 上へ: クロストーク音声認識 戻る: クロストーク音声認識目次

従来の研究

会議など様々な場面において，人々は同時に会話をする．このような場面で複数の話者が同時に，違う声の大きさで発話したとき，計算機を用いて全ての話者の音声を認識できるシステムの実現が望まれる．クロストーク音声における従来研究は，複数の話者に対してマイクロフォンを使用し認識を行っている[1]．

複数のマイクロフォンを使用する場合，各マイクロフォンに入力される複数音声の音量の差や，時間差などの情報を利用し，認識を行う．問題点として，複数のマイクロフォンを使用することでコストがかかる点や，マイクロフォンを中心に同角度の場所から，複数の音声が発声された場合に，認識精度が低下する点などが挙げられる．

単一のマイクロフォンを使用する場合，重畳音声を分離する手法[3]やHMM合成法を用いた手法[4]がある．重畳音声を分離する手法は，重畳音声に対し，音源のモデルとして相関関数を用いた重畳音声分解法が提案され，重畳音声を複数の孤立単語音声に分解する性能に関して有効性が示されている．問題点として，重畳音声を複数の孤立単語音声に分解する性能のみが評価されており，重畳音声を分解した後の，音声に対する認識精度は評価されていないことが挙げられる．HMM合成法を用いた手法では，音声が重畳している部分において，重畳音声を認識対象の音声と妨害音声が重畳されていると考え，認識対象の音声と妨害音声を合成HMMを用いて表現し認識を行う．

過去の研究では，男女2話者が同時に単語を発声した状況を想定し，クロストーク音声を認識対象として同時発話認識率の調査が行われた．認識手法の単純法では56%，マルチパス法で45%の認識率が得られたが，人間の聴覚実験による結果では77%となり，改善の必要がある．また，この2つの手法は，クロストーク音声において，男性話者の音声と女性話者の音声を個別に考える点から妥当性がないといわれるため，雑音対策の認識手法であるParallel Model Combination法（以下，PMC法）の提案がされたが，まだまだ未完成である[2]．

本研究では，特徴パラメータMFCCではPMC法を行い，FBANKではHMMの混合分布をスペクトル領域で加算する手法を提案し認識を行う．また，比較として，単純法とマルチパス法による実験も行う．

平成24年3月20日