本研究におけるクロストーク音声認識は,男女2話者が別々の単語を同時 に発声した場合に,単1のマイクロフォンを認識に使用した状況を想定する. 複数のマイクロフォンを認識に使用した例は過去にあり,有効性が示されている [1]. 先行研究では,同時発話認識率(以下,認識率とする) の調査が行われ,単純法が56%マルチパス法が45%という結果になった. しかし,以上の2つの手法は,クロストーク音声に対して 2つの音声を別々に考えてしまうため,妥当性が低い.具体的には,ある時間は男性話者の音声, ある時間は女性話者の音声を認識してしまう.
そこで提案されたのが,雑音対策として用いられる認識手法であるPMC 法である.クロストーク音声を男女それぞれの音声信号の和として認識を行うた め,HTKの問題点が解決できる. また,この手法は,元々HMMを無雑音音声のHMMと雑音 のHMMかを合成して作成し,認識を行う手法である.クロストーク音声の片側音 声を雑音モデルと考えることにより,この認識手法が使えるのではないかという 仮定から試された.
結果としてPMC法が10%となった[3]. この研究でのPMC法は,状態数1混合分布数1以外の音素HMMの場合に対応されず, 状態数と混合分布数を増やした音素HMMを用いたPMC法が望まれている. なお本研究では,状態数をstate,混合分布数をmixtureという.
そこで, 「3state 4mixture」のHMMの場合のPMC法を行い,認識率の改善を目指す. その結果,「1state 1mixture」において11.5%,「3state 4mixture」において 36.3%となり,認識率の改善がみられた.しかし,同じHMMを用いて,他の認識手法でも認識したところ,単純法が47.5%,マルチパス法が35.5%となり,単純法には及ばなかった.