従来の研究

次へ: 認識手法 上へ: クロストーク音声認識 戻る: クロストーク音声認識目次

従来の研究

会議など様々な場面において，人々は同時に会話などをする．このような場面で複数の話者が同時に，違う声の大きさで発話したとき，計算機を用いて全ての話者の音声を認識できるシステムの実現が望まれる．クロストーク音声における従来研究は，複数の話者に対してマイクロフォンを使用し認識を行っている．

複数のマイクロフォンを使用する場合，各マイクロフォンに入力される複数音声の音量の差や，時間差などの情報を利用し，認識を行う．問題点として，複数のマイクロフォンを使用することでコストがかかる点や，マイクロフォンを中心に同角度の場所から，複数の音声が発声された場合に，認識精度が低下する点などが挙げられる．

単一のマイクロフォンを使用する場合，重畳音声を分離する手法やHMM合成法を用いた手法がある．重畳音声を分離する手法は，重畳音声に対し，音源のモデルとして相関関数を用いた重畳音声分解法が提案され，重畳音声を複数の孤立単語音声に分解する性能に関して有効性が示されている．問題点として，重畳音声を複数の孤立単語音声に分解する性能のみが評価されており，重畳音声を分解した後の，音声に対する認識精度は評価されていないことが挙げられる．HMM合成法を用いた手法では，音声が重畳している部分において，重畳音声を認識対象の音声と妨害音声が重畳されていると考え，認識対象の音声と妨害音声を合成HMMを用いて表現し認識を行う．問題点として，重畳音声の認識対象音声だけのみの認識精度しか調査されていないことが挙げられる．

本研究では，クロストーク音声の両方の音声を認識対象として，単一のマイクロフォンを用いた状況を想定する．

平成20年5月16日