現在,不特定話者音声認識には複数話者の音声を1つのHMMに学習する手法 [1]や, 複数の話者を選択的に用いる話者選択型[2]などの手法がある.しかし, 不特定話者の認識精度では不十分である. そこで認識精度を向上させる手法として, 認識する話者のデータを利用する話者適応が挙げられる. しかし,認識する話者のデータを大量に収集することは困難であり,限られたデー タでより効果的に話者適応を行う必要がある.
話者適応にはすでに様々な学習方法が提案されているが[3] [4],話者適応に用いる学習データが少ない場 合,認識精度が向上するとは限らない. また,話者適応に用いる学習データ内に含まれる音素数が,認識精度に与える 影響についてはあまり考察されていない.
そこで本研究は,学習データ内の各音素の数に着目し,各音素の数による認識精度の 変化を調査すると共に,認識精度を低下させずに話者適応を行う手法として,不 特定話者HMMと話者適応HMMを組み合わせて作成する「混 合HMM」を用いる手法を提案し,認識実験により評価する.
不特定話者の誤り率が11.17%であるのに対して,164単語の学習データを用いた 実験では, 話者適応の誤り率が13.48%,30個未満混合HMMの誤り率が8.84%となった.82単 語の学習 データを用いた実験では,話者適応の誤り率が33.08%,30個未満混合HMMの誤り 率が10.74%となった.混合HMMを用いることにより,不特定話者と話者適応より 高い認識精度が得られた.
また,話者適応HMMと混合HMMの認識精度より,話者適応においてより効果的な学 習データについて考察する. あらかじめ音素数の少ない音素を削除し,音素数の多い音素を 増やした学習データを作成することで,更に認識精度が向上すると考え, 音素数に偏りを持つ学習データを作成し,認識精度の向上を試みる.
164単語の音素数に偏りを持つ学習データを用いた実験では,話者適応の誤り率が 9.14%,30個未満混合HMMの誤り率が8.52%となった. 82単語の音素数に偏りを持つ学習データを用いた実験では,話者適応の誤り率が, 13.47%,30個未満混合HMMの誤り率が9.84%となり,通常の学習データより認識 精度が向上することを確認した.