next up previous contents
次へ: 目次 上へ: soturon 戻る: soturon   目次

概要

従来の不特定話者音声認識は,複数の話者の音声を1つのHMMに学習している. 従来手法のFBANK,Diagonal-covarianceを用いた実験の認識率は85.77%であった. そして,認識率の向上が課題とされている[1].

本研究は, 音質が類似する話者のHMMを用いることにより認識率が向上するのではないかと 考え,「複数の特定話者のHMMを選択的に用 いる」という話者選択型の不特定話者音声認識を行った. 特定の単語を発話し,認識率から話者選択を行う教師ありの話者選択と, 任意の単語を発話し,尤度から話者選択を行う教師なしの話者選択の, 2つの方法で認識した.

実験の結果,教師ありの話者選択,Diagonal-covarianceの場合に, 男女20話者平均で79.21%という認識率が得られた.しかし,本提案の手法は従来の手法 と比較すると認識率は低い結果となった. このことから音質が類似する話者を選択するよりも,学習データ量が多いほうが 有効であると考えられる. また,教師ありと教師なしの話者選択を比較したところ,全ての条件において教 師なしが低くなったが,差は2%程度となった.教師ありと教師なしの話者選択 では大きな差はないとわかった.



平成18年3月20日