next up previous contents
次へ: 本研究での認識手法 上へ: shuuron070115 戻る: 連結学習   目次

クロストーク音声における従来の研究

会議など様々な場面において人々は同時に会話などをする.このような場面で複 数の話者が同時に, 違う声の大きさで発話したとき, 計算機を用いて全ての話者の音声を認識できるシステムの実現が望まれる.

クロストーク音声における従来研究は,複数の話者に対して複数のマイクロフォ ンを使用する手法が一般的である[1].複数のマイクロフォンを使用することで,各 マイクロフォンに入力される複数音声の音量の差や時間差などの情報を利用し認 識を行う.この手法は有効性が示されている.しかし,問題点として,複数のマイクロフォンを使用す ることでコストがかかる点や,マイクロフォンを中心に同角度の場所から複数 の音声が発声された場合に認識精度が低下するなどが挙げられる.

また,単1のマイクロフォンを利用する手法では,重畳音声を分離する手法[2]や, HMM合成法を用いた手法[3]が提案されている.

重畳音声を分離する手法では,重畳音声に対し,音源のモデルとして相関関数を 用いた重畳音声分解法が提案され, 重畳音声を複数の孤立単語音声に分解する性能に関して有効性が示されている. しかし,問題点として,重畳音声を複数の孤立単語音声に分解する性能のみが 評価されており,重畳音声を分解した後の, 音声に対する認識精度は評価されていないことが挙げられる.

HMM合成法を用いた手法では, 音声が重畳している部分において,重畳音声を認識対象の音声と妨害音声が重畳 されていると考え,認識対象の音声と妨害音声を合成HMMを用いて表現し認識を 行う. しかし,問題点として,重畳音声の認識対象音声だけのみの認識精度しか調査さ れていないことが挙げられる.

本研究では,クロストーク音声の両方の音声を認識対象として,次の章で述べる 3種類の手法で認識率の調査を行う.



平成19年5月7日