次へ: 目次 上へ: s_genkou 戻る: s_genkou 目次

概要

本研究におけるクロストーク音声認識は，男女2話者が別々の単語を同時に発声した場合に，単１のマイクロフォンを認識に使用した状況を想定する．複数のマイクロフォンを認識に使用した例は過去にあり，有効性が示されている [1]．先行研究では，同時発話認識率(以下，認識率とする) の調査が行われ，単純法が56%マルチパス法が45%という結果になった．しかし，以上の2つの手法は，クロストーク音声に対して 2つの音声を別々に考えてしまうため，妥当性が低い．具体的には，ある時間は男性話者の音声，ある時間は女性話者の音声を認識してしまう．

そこで提案されたのが，雑音対策として用いられる認識手法であるPMC 法である．クロストーク音声を男女それぞれの音声信号の和として認識を行うため，HTKの問題点が解決できる．また，この手法は，元々HMMを無雑音音声のHMMと雑音のHMMかを合成して作成し，認識を行う手法である．クロストーク音声の片側音声を雑音モデルと考えることにより，この認識手法が使えるのではないかという仮定から試された．

結果としてPMC法が10%となった[3]．この研究でのPMC法は，状態数1混合分布数1以外の音素HMMの場合に対応されず，状態数と混合分布数を増やした音素HMMを用いたPMC法が望まれている．なお本研究では，状態数をstate，混合分布数をmixtureという．

そこで，「3state 4mixture」のHMMの場合のPMC法を行い，認識率の改善を目指す．その結果，「1state 1mixture」において11.5%，「3state 4mixture」において 36.3%となり，認識率の改善がみられた．しかし，同じHMMを用いて，他の認識手法でも認識したところ，単純法が47.5%，マルチパス法が35.5%となり，単純法には及ばなかった．

平成20年5月16日