next up previous
次へ: コードブックサイズ 上へ: Ergodic HMM による複数話者発話の識別の実験結果 戻る: Ergodic HMM による複数話者発話の識別の実験結果

話者特徴量と長時間窓分析

話者識別の研究から話者識別には長時間平均スペクトルが有効で あることが知られている[10]。従って分析窓長を長くす ることによって話者の識別性能が向上することが予想される。そこ で分析窓長を変化させたときの識別率の変化を調べる。 Universal コードブックサイズは256 と64 で行なう。また、い ずれの実験でもフレーム更新周期は分析窓長の半分とする。平均 識別率は、各音声資料に対し、乱数により16個のランダムな初期 モデルを作成して、その各々について試行を行なった音声資料 8 セットの平均値、すなわち計128回の試行に対する平均値である。 HMMの学習は160回繰り返して終了する。その他の実験条件は実験 3と同一である。この実験結果を図 5 に 示す。この図において縦軸は平均識別率、横軸は分析窓長である。

図 5: 分析窓長と平均識別率の関係
\includegraphics[width=65mm]{PS/figure2.epsf}

この図からわかることを以下に示す。

  1. 分析窓を長くするに従い、平均識別率は向上するが、ある 値を越えると低下する。

  2. 分析窓長が128ms以下ではコードブックサイズ 256の方が 64よりも識別性能が高い。しかし分析窓長が128ms 以上ではコー ドブックサイズ64の方が256よりも識別性能が高い。

  3. コードブック64、分析窓長341msにおいて最も高い識別率 が得られる。

これらの結果は、次のような原因によると考えている。分析窓 長を広げるとケプストラムのパラメータに含まれる話者特徴量 は増加する。 従って、分析窓長を広げると識別性能が向上する。 しかし、分析窓長を広げると得られるデータ量が減少する。例 えば分析窓長 683msではデータは平均約440個である。そのため Ergodic HMMのパラメータの推定精度が低下する。よって分析窓 幅がある閾値を越えると、識別性能は低下する。

なお、データ量の減少を防ぐために、フレーム更新周期を短く することが考えられる。しかし、この場合フレーム更新周期の 間に話者が遷移するデータが増加する。このデータは2人の話 者の特徴量が入るため、不安定な特徴量を含む。したがってフ レーム更新周期を短くしてデータ量を増加させても、識別率は 向上しないことが予想される。実際に、フレーム更新周期を変 化させて行なった実験で、この予想が確かめられた。



Jin'ichi Murakami 平成13年5月14日