next up previous contents
次へ: 認識手法 上へ: クロストーク音声認識 戻る: クロストーク音声認識   目次

従来の研究

会議など様々な場面において,人々は同時に会話などをする.このような場面で 複数の話者が同時に,違う声の大きさで発話したとき,計算機を用いて全ての話 者の音声を認識できるシステムの実現が望まれる.クロストーク音声における従 来研究は,複数の話者に対してマイクロフォンを使用し認識を行っている.

複数のマイクロフォンを使用する場合,各マイクロフォンに入力される複数音声の音量の差や,時間差などの情報を利用し,認識を行う.問題点として,複数のマイクロフォンを使用することでコストがかかる点や,マイクロフォンを中心に同角度の場所から,複数の音声が発声された場合に,認識精度が低下する点などが挙げられる.

単一のマイクロフォンを使用する場合,重畳音声を分離する手法やHMM合成法を 用いた手法がある.重畳音声を分離する手法は,重畳音声に対し,音源のモデル として相関関数を用いた重畳音声分解法が提案され,重畳音声を複数の孤立単語 音声に分解する性能に関して有効性が示されている.問題点として,重畳音声を 複数の孤立単語音声に分解する性能のみが評価されており,重畳音声を分解した 後の,音声に対する認識精度は評価されていないことが挙げられる.HMM合成法 を用いた手法では,音声が重畳している部分において,重畳音声を認識対象の音 声と妨害音声が重畳されていると考え,認識対象の音声と妨害音声を合成HMMを 用いて表現し認識を行う.問題点として,重畳音声の認識対象音声だけのみの認 識精度しか調査されていないことが挙げられる.

本研究では,クロストーク音声の両方の音声を認識対象として, 単一のマイクロフォンを用いた状況を想定する.



平成20年5月16日