また,過去の研究では,音声認識ツールのHTK[2]を用いた同時発話認識率の調 査も行われた.同時発話認識率とは,クロストーク音声の 男性話者と女性話者の発話内容を同時に認識 できた場合の認識率である.計算機で重畳したクロストーク音声に対し, 男女別々のHMMを用いて認識を行う単純法は, 56%となった.男性話者と女性話者それぞれのHMMを用いた マルチパス法は,45%となった.しかし,この2つの手法は,クロストーク音声において, 男性話者の音声と女性話者の音声を個別に考える点から妥当性がない. クロストーク音声が男女それぞれの話者 の音声を重畳したにも関わらず,時間によって男性話者,女性話者の どちらか一方の音声を認識するからである.
そこで,クロストーク音声認識に雑音対策の認識手法であるPMC 法を適用する.この手法のHMMは,無雑音音声のHMMと雑音 のHMMを合成して作成する.クロストーク音声認識に適用する場合,クロストー ク音声の片側音声を雑音モデルと考える.PMC法が男女それぞれの音声信号の和として認識を行うた め,単純法,マルチパス法の問題点が解決できる.PMC法の認識率を求めた結果, 10%になった[3].
PMC法が低い認識率になった原因は次に述べる3点が考えられる. まず1つ目として,状態の尤度計算の際,パラメータ合成を行う必要があるが[7], 過去の研究で行われたPMC法はケプストラムのまま計算を行っている. 2つ目として,モデル作成時において,パスの繋ぎ方が数通りあり 3つ目として状態数1混合分布数1のHMMでしか実験をしていない. なお,状態数をstate,混合分布数をmixtureという.
そこで本研究は,クロストーク音声認識におけるPMC法の有効性を調べるために, HMMの条件に着目し,「3state 4mixture」のHMMを用いた PMC法の同時発話認識率の調査を行う.また,同じHMMを用いて, 単純法マルチパス法の同時発話認識率を調査し,評価する.なお,本研究におけるマルチ パス法はPMC法と同じモデルを作成するが,状態の尤度の計算方法が異なる.
結果として,PMC法の同時発話認識率は「1state 1mixture」において11.5%,「3state 4mixture」において 36.3%となり,認識率の改善がみられた.しかし,他の認識手法で認識させたところ, 単純法が47.5%,マルチパス法が35.5%となり,PMC法は,単純法には及ばなかっ た,しかし改良の余地がない単純法に比べ,PMC法は先ほど挙げた複数の問題点 があり,さらに認識率が向上する可能性があると考えている.
以降,2章で音声認識について説明し,3章でクロストー
ク音声認識と認識手法について説明する.4章で認識実験の説明をして,5章
に実験結果として認識結果と認識率を示し,6章に考察を述べる.