複数の人が自由に会話している環境で,それぞれの発話内容を認識できるシステムが望まれている. 複数の話者が同時に話した時に,各話者の音声の認識を行う際,複数のマイクロフォンを用いる手法が 一般的である[1].しかし,マイクロフォンの数を超える数の音声が発声された場合, 認識精度が低下する.
過去の研究では,男女2話者が別々の単語を同時に発声した場合に,単一のマイクロ フォンにより認識することを想定し,同時発話認識率の調査が行われた[2].認識手法として単純法とマルチパス法が用いられたが, 単純法は男女別々に認識を行う点,マルチパス法は重畳した音声に対し時間単位でどちらかの話者のHMMで認識する点から,原理的に問題がある.
そこで,本研究では,男性の音声と女性の音声がスペクトル領域で加算の関係にあると仮定し,特徴パラメータFBANKで男女2話者のHMMの混合分布を加算する手法を提案する.HMMを加算するために,男女それぞれのHMMとフレームの3次元モデルを用いる.
同時発話認識率は,提案手法が13.0%となり,マルチパス法の認識率の39.5%に比べ低い結果となった.