複数のマイクロフォンを使用する場合,各マイクロフォンに入力される複数音声の音量の差や,時間差などの情報を利用し,認識を行う.問題点として,複数のマイクロフォンを使用することでコストがかかる点や,マイクロフォンを中心に同角度の場所から,複数の音声が発声された場合に,認識精度が低下する点などが挙げられる.
単一のマイクロフォンを使用する場合,重畳音声を分離する手法やHMM合成法を 用いた手法がある.重畳音声を分離する手法は,重畳音声に対し,音源のモデル として相関関数を用いた重畳音声分解法が提案され,重畳音声を複数の孤立単語 音声に分解する性能に関して有効性が示されている.問題点として,重畳音声を 複数の孤立単語音声に分解する性能のみが評価されており,重畳音声を分解した 後の,音声に対する認識精度は評価されていないことが挙げられる.HMM合成法 を用いた手法では,音声が重畳している部分において,重畳音声を認識対象の音 声と妨害音声が重畳されていると考え,認識対象の音声と妨害音声を合成HMMを 用いて表現し認識を行う.問題点として,重畳音声の認識対象音声だけのみの認 識精度しか調査されていないことが挙げられる.
本研究では,クロストーク音声の両方の音声を認識対象として, 単一のマイクロフォンを用いた状況を想定する.