next up previous contents
次へ: 音声認識 上へ: s_genkou 戻る: 表一覧   目次

はじめに

人々が同時に会話などをするような場面で,複 数の話者が同時に発話した時,計算機を用いて全ての話者 の音声を聞き分けて,認識できるシステムの実現が望まれる. このようなシステムの基本として,2話者が 同時に発声する状況を想定したクロストーク音声認識が挙げられる. クロストーク音声認識は技術的に困難な課 題であるが,重要な技術のひとつであ ると考えている.過去の研究では,複数の話者が同時に話したときに,各話者ごとに認識を行うた めに,複数の マイクロフォンを用いる手法が一般的に用いられている[1]. しかし,話者よりもマイクロフォンの数が少ない時や,同一方向からの重畳され た音声を認識する場合には対応できない.そこで,人間が1つの耳だけで 複数の音声を聞き分けることができるように,単一のマイクロフォンを使っ た認識システムの改良が望まれている.そこで,本研究におけるクロストーク音 声認識は,男女2話者が別々の単語を同時に発声した場合に, 単一のマイクロフォンを使用した状況を想定する.

また,過去の研究では,音声認識ツールのHTK[2]を用いた同時発話認識率の調 査も行われた.同時発話認識率とは,クロストーク音声の 男性話者と女性話者の発話内容を同時に認識 できた場合の認識率である.計算機で重畳したクロストーク音声に対し, 男女別々のHMMを用いて認識を行う単純法は, 56%となった.男性話者と女性話者それぞれのHMMを用いた マルチパス法は,45%となった.しかし,この2つの手法は,クロストーク音声において, 男性話者の音声と女性話者の音声を個別に考える点から妥当性がない. クロストーク音声が男女それぞれの話者 の音声を重畳したにも関わらず,時間によって男性話者,女性話者の どちらか一方の音声を認識するからである.

そこで,クロストーク音声認識に雑音対策の認識手法であるPMC 法を適用する.この手法のHMMは,無雑音音声のHMMと雑音 のHMMを合成して作成する.クロストーク音声認識に適用する場合,クロストー ク音声の片側音声を雑音モデルと考える.PMC法が男女それぞれの音声信号の和として認識を行うた め,単純法,マルチパス法の問題点が解決できる.PMC法の認識率を求めた結果, 10%になった[3].

PMC法が低い認識率になった原因は次に述べる3点が考えられる. まず1つ目として,状態の尤度計算の際,パラメータ合成を行う必要があるが[7], 過去の研究で行われたPMC法はケプストラムのまま計算を行っている. 2つ目として,モデル作成時において,パスの繋ぎ方が数通りあり 3つ目として状態数1混合分布数1のHMMでしか実験をしていない. なお,状態数をstate,混合分布数をmixtureという.

そこで本研究は,クロストーク音声認識におけるPMC法の有効性を調べるために, HMMの条件に着目し,「3state 4mixture」のHMMを用いた PMC法の同時発話認識率の調査を行う.また,同じHMMを用いて, 単純法マルチパス法の同時発話認識率を調査し,評価する.なお,本研究におけるマルチ パス法はPMC法と同じモデルを作成するが,状態の尤度の計算方法が異なる.

結果として,PMC法の同時発話認識率は「1state 1mixture」において11.5%,「3state 4mixture」において 36.3%となり,認識率の改善がみられた.しかし,他の認識手法で認識させたところ, 単純法が47.5%,マルチパス法が35.5%となり,PMC法は,単純法には及ばなかっ た,しかし改良の余地がない単純法に比べ,PMC法は先ほど挙げた複数の問題点 があり,さらに認識率が向上する可能性があると考えている.

以降,2章で音声認識について説明し,3章でクロストー ク音声認識と認識手法について説明する.4章で認識実験の説明をして,5章 に実験結果として認識結果と認識率を示し,6章に考察を述べる.


平成20年5月16日