next up previous contents
次へ: 目次 上へ: shuuron070115 戻る: shuuron070115   目次

概要

本研究におけるクロスト−クとは, 男性話者と女性話者の2話者が別々の孤立単語を同時に発声す る状況を想定している.

クロストーク音声認識は技術的に困難な課題であり,従来,研究例が少ないが, 現実の音声認識では重要な技術の一つである.

複数の話者が同時に話したときに,各話者ごとに音声の認識を行う場合, 複数のマイクロフォンを用いる手法が一般的である[1]. しかし,人間では1つの耳だけで複数の音声を聞き分けることが出来る. このように複数話者の重畳音声を認識する場合に 単1のマイクロフォンで音声認識を行う研究例は少ない. 類似した研究として,音声を分離する手法[2]や, HMM合成法を用いた手法[3]が提案されている.

本研究では,男性話者と女性話者の2話者が同時に発話した場合に, 単1のマイクロフォンを使用した状況を想定し,男性話者と女性話者の発 話内容を同時に認識できた場合の認識率の調査を行う. まず男女個別のモデルを利用して,単純な方法で認識実験を行う. また,雑音が重畳した音声を認識する方法であるParallel Model Combination法と マルチパス法を用いて認識実験を行う.

Parallel Model Combination法[4]は, 雑音が重畳した音声を認識する一般的な方法である.無雑音音声のHMMと 雑音のHMMから目的の雑音環境の音声モデルを合成し,認識を行う手法である.

本研究では,Parallel Model Combination法をクロストーク音声認識に適応させ る.

具体的には,雑音モデルをクロストーク音声 の片側音声だと考え,男性話者の音素HMMと女性話者の音素HMMから PMC法のモデルを合成し認識を行う.

マルチパス法に関しても基本的なアルゴリズムはParallel Model Combination法 と同様である.

実験の結果,単純法で56%,Parallel Model Combination法で10%,マルチパス 法で45%の認識精度が得られた.



平成19年5月7日