次へ: 音響分析 上へ: shuuron070115 戻る: 表一覧目次

はじめに

会議など様々な場面において人々は同時に会話などをする．このような場面で複数の話者が同時に，違う声の大きさで発話したとき，計算機を用いて全ての話者の音声を認識できるシステムの実現が望まれる．このようなシステムの初歩として，クロストーク音声認識があげられる．このクロストーク音声とは， 2話者が同時に発声する状況を想定している．しかし，クロストーク音声認識は技術的に困難な課題であり，従来，研究例が少ないが，現実の音声認識では重要な技術の一つである．

複数の話者が同時に話したときに，各話者ごとに音声の認識を行う場合，複数のマイクロフォンを用いる手法が一般的である[1]．しかし，人間では1つの耳だけで複数の音声を聞き分けることが出来る．このように複数話者の重畳音声を認識する場合に単1のマイクロフォンで音声認識を行う研究例は少ない．類似した研究として，重畳音声を分離する手法[2]や， HMM合成法を用いた手法[3]が提案されている．

過去の研究では，男女２話者の単独同時発話を対象に，現状の技術を用いた認識率の実験的評価が行われているが，実験対象とする単語数が多いこともあって，低い認識率にとどまっている．また，実験では，片側音声を対象とした単独認識率のみが評価されており，両側音声の同時発話認識率は不明であった[5]．

以前の研究では，認識対象単語数と認識率の関係を調べるため， 10単語を対象とした認識実験を行い，同時発話認識率についても評価した[6]．

本研究では，男性話者と女性話者の2話者が同時に発話した場合に，単1のマイクロフォンを使用した状況を想定し，男性話者と女性話者の発話内容を同時に認識できた場合の認識率の調査を行う．まず男女個別のモデルを利用して，単純な方法で認識実験を行う．また，雑音が重畳した音声を認識する方法であるParallel Model Combination法とマルチパス法を用いて認識実験を行う．

結果として，最も認識精度が高かった実験は，単純法MFCC Full-covarianceにおいて，認識率が56%であった．また，人間による聴覚実験と比較すると誤り率で2倍程度の認識率が得られることがわかった．

平成19年5月7日