従来の不特定話者音声認識は,複数の話者の音声を1つのHMMに学習し,様々な話 者の音声を認識できるようになっている. 先行研究において,特徴パラメータにFBANK,共分散行列にDiagonal-covariance を用いた不特定話者音声認識の認識率は85.77%であった. そして,認識率の向上が課題とされている[1]. 本研究は,音質が類似する話者のHMMを用いることにより認識率が向上するのでは ないかと考え, 「複数の特定話者のHMMを選択的に用いる」という 話者選択型の不特定話者音声認識を試みる. 基礎研究として,特徴パラメータにFBANKを使い従来の手法と比較する.
また,話者選択型不特定話者認識では,話者を選択するパラメータとして 認識率と尤度があるので,2つの手法が挙げられる. 規定の単語を発話し,認識率から話者選択を行う教師ありの話者選択と, 任意の単語を発話し,尤度から話者選択を行う教師なしの話者選択である. 教師ありの話者選択と,教師なしの話者選択の精度の比較も行う.