next up previous contents
次へ: コードブックサイズ 上へ: Ergodic HMM による複数話者発話の識別の実験結果 戻る: 基本手法の実験結果   目次

話者特徴量と長時間窓分析

話者識別の研究から話者識別には長時間平均スペクトルが有効で あることが知られている[13]。従って分析窓長を長くす ることによって話者の識別性能が向上することが予想される。そこ で分析窓長を変化させたときの識別率の変化を研究した。 Universal コードブックサイズは256 と64 で行なった。また、い ずれの実験でもフレーム更新周期は分析窓長の半分とした。平均 識別率は、各音声資料に対し、乱数により16個のランダムな初期 モデルを作成して、その各々について試行を行なった音声資料8 セットの平均値、すなわち計128回の試行に対する平均値で求めた。 HMMの学習は160回繰り返して終了する。その他の実験条件は実験 3と同一である。この実験結果を図 8.5 に 示した。この図において縦軸は平均識別率、横軸は分析窓長である。

図 8.5: 分析窓長と平均識別率の関係
\begin{figure}\begin{center}
\fbox{\epsfile{file=PS/figure2.ps,width=10cm}} \end{center}\end{figure}

この図から以下のことが示される。

  1. 分析窓を長くするに従い、平均識別率は向上するが、ある値を越えると低下する。

  2. 分析窓長が128ms以下ではコードブックサイズ 256の方が64よりも識別性能が高い。 しかし分析窓長が128ms 以上ではコードブックサイズ64の方が256よりも識別性能が高い。

  3. コードブック64、分析窓長341msにおいて最も高い識別率が得られる。

これらの結果は、次のような原因によると考えている。

分析窓長を広げるとケプストラムのパラメータに含まれる話者特徴 量は増加する。 従って、分析窓長を広げると識別性能が向上する。 しかし、分析窓長を広げると得られるデータ量が減少する。例えば 分析窓長 683msではデータは平均約440個である。そのためErgodic HMMのパラメータの推定精度が低下する。よって分析窓幅がある閾値 を越えると、識別性能は低下する。

なお、データ量の減少を防ぐために、フレーム更新周期を短く することが考えられる。しかし、この場合フレーム更新周期の 間に話者が遷移するデータが増加する。このデータは2人の話 者の特徴量が入るため、不安定な特徴量を含む。したがってフ レーム更新周期を短くしてデータ量を増加させても、識別率は 向上しないことが予想される。実際に、フレーム更新周期を変 化させて行なった実験で、この予想が確かめられた。



Jin'ichi Murakami 平成13年1月5日