複数の話者が同時に話したときに,各話者ごとに音声の認識を行う場合, 複数のマイクロフォンを用いる手法が一般的である[1]. しかし,人間では1つの耳だけで複数の音声を聞き分けることが出来る. このように複数話者の重畳音声を認識する場合に 単1のマイクロフォンで音声認識を行う研究例は少ない.類似した研究として, 重畳音声を分離する手法[2]や, HMM合成法を用いた手法[3]が提案されている.
過去の研究では,男女2話者の単独同時発 話を対象に,現状の技術を用いた認識率の実験的評価が行われているが, 実験対象とする単語数が多いこともあって,低い認識率にとどまっている. また,実験では,片側音声を対象とした単独認識率のみが評価されており, 両側音声の同時発話認識率は不明であった[5].
以前の研究では,認識対象単語数と認識率の関係を調べるため, 10単語を対象とした認識実験を行い,同時発話認識率についても評価した[6].
本研究では,男性話者と女性話者の2話者が同時に発話した場合に, 単1のマイクロフォンを使用した状況を想定し,男性話者と女性話者の発 話内容を同時に認識できた場合の認識率の調査を行う. まず男女個別のモデルを利用して,単純な方法で認識実験を行う. また,雑音が重畳した音声を認識する方法であるParallel Model Combination法と マルチパス法を用いて認識実験を行う.
結果として, 最も認識精度が高かった実験は, 単純法MFCC Full-covarianceにおいて,認識率が56%であった. また,人間による聴覚実験と比較すると誤り率で2倍程度の 認識率が得られることがわかった.