次へ: 音声認識 上へ: soturon 戻る: 表一覧目次

はじめに

従来の不特定話者音声認識は，複数の話者の音声を1つのHMMに学習し，様々な話者の音声を認識できるようになっている．先行研究において，特徴パラメータにFBANK，共分散行列にDiagonal-covariance を用いた不特定話者音声認識の認識率は85.77%であった．そして，認識率の向上が課題とされている[1]．本研究は，音質が類似する話者のHMMを用いることにより認識率が向上するのではないかと考え，「複数の特定話者のHMMを選択的に用いる」という話者選択型の不特定話者音声認識を試みる．基礎研究として，特徴パラメータにFBANKを使い従来の手法と比較する．

また，話者選択型不特定話者認識では，話者を選択するパラメータとして認識率と尤度があるので，2つの手法が挙げられる．規定の単語を発話し，認識率から話者選択を行う教師ありの話者選択と，任意の単語を発話し，尤度から話者選択を行う教師なしの話者選択である．教師ありの話者選択と，教師なしの話者選択の精度の比較も行う．

平成18年3月20日