次へ: 音声認識 上へ: syuuron 戻る: 表一覧目次

はじめに

現在，不特定話者音声認識には複数話者の音声を1つのHMMに学習する手法 [1]や，複数の話者を選択的に用いる話者選択型[2]などの手法がある．しかし，不特定話者の認識精度では不十分である．そこで認識精度を向上させる手法として，認識する話者のデータを利用する話者適応が挙げられる．しかし，認識する話者のデータを大量に収集することは困難であり，限られたデータでより効果的に話者適応を行う必要がある．

話者適応にはすでに様々な学習方法が提案されているが[3] [4]，話者適応に用いる学習データが少ない場合，認識精度が向上するとは限らない．また，話者適応に用いる学習データ内に含まれる音素数が，認識精度に与える影響についてはあまり考察されていない．

そこで本研究は，学習データ内の各音素の数に着目し，各音素の数による認識精度の変化を調査すると共に，認識精度を低下させずに話者適応を行う手法として，不特定話者HMMと話者適応HMMを組み合わせて作成する「混合HMM」を用いる手法を提案し，認識実験により評価する．

不特定話者の誤り率が11.17%であるのに対して，164単語の学習データを用いた実験では，話者適応の誤り率が13.48%，30個未満混合HMMの誤り率が8.84%となった．82単語の学習データを用いた実験では，話者適応の誤り率が33.08%，30個未満混合HMMの誤り率が10.74%となった．混合HMMを用いることにより，不特定話者と話者適応より高い認識精度が得られた．

また，話者適応HMMと混合HMMの認識精度より，話者適応においてより効果的な学習データについて考察する．あらかじめ音素数の少ない音素を削除し，音素数の多い音素を増やした学習データを作成することで，更に認識精度が向上すると考え，音素数に偏りを持つ学習データを作成し，認識精度の向上を試みる．

164単語の音素数に偏りを持つ学習データを用いた実験では，話者適応の誤り率が 9.14%，30個未満混合HMMの誤り率が8.52%となった． 82単語の音素数に偏りを持つ学習データを用いた実験では，話者適応の誤り率が， 13.47%，30個未満混合HMMの誤り率が9.84%となり，通常の学習データより認識精度が向上することを確認した．

平成20年3月11日