話者特徴量と長時間窓分析

次へ: コードブックサイズ 上へ: Ergodic HMM による複数話者発話の識別の実験結果 戻る: 基本手法の実験結果目次

話者特徴量と長時間窓分析

話者識別の研究から話者識別には長時間平均スペクトルが有効であることが知られている[13]。従って分析窓長を長くすることによって話者の識別性能が向上することが予想される。そこで分析窓長を変化させたときの識別率の変化を研究した。 Universal コードブックサイズは256 と64 で行なった。また、いずれの実験でもフレーム更新周期は分析窓長の半分とした。平均識別率は、各音声資料に対し、乱数により16個のランダムな初期モデルを作成して、その各々について試行を行なった音声資料8 セットの平均値、すなわち計128回の試行に対する平均値で求めた。 HMMの学習は160回繰り返して終了する。その他の実験条件は実験３と同一である。この実験結果を図 8.5 に示した。この図において縦軸は平均識別率、横軸は分析窓長である。

**図 8.5:** 分析窓長と平均識別率の関係
$\begin{figure}\begin{center} \fbox{\epsfile{file=PS/figure2.ps,width=10cm}} \end{center}\end{figure}$

この図から以下のことが示される。

分析窓を長くするに従い、平均識別率は向上するが、ある値を越えると低下する。
分析窓長が128ms以下ではコードブックサイズ 256の方が64よりも識別性能が高い。しかし分析窓長が128ms 以上ではコードブックサイズ64の方が256よりも識別性能が高い。
コードブック64、分析窓長341msにおいて最も高い識別率が得られる。

これらの結果は、次のような原因によると考えている。

分析窓長を広げるとケプストラムのパラメータに含まれる話者特徴量は増加する。従って、分析窓長を広げると識別性能が向上する。しかし、分析窓長を広げると得られるデータ量が減少する。例えば分析窓長 683msではデータは平均約440個である。そのためErgodic HMMのパラメータの推定精度が低下する。よって分析窓幅がある閾値を越えると、識別性能は低下する。

なお、データ量の減少を防ぐために、フレーム更新周期を短くすることが考えられる。しかし、この場合フレーム更新周期の間に話者が遷移するデータが増加する。このデータは２人の話者の特徴量が入るため、不安定な特徴量を含む。したがってフレーム更新周期を短くしてデータ量を増加させても、識別率は向上しないことが予想される。実際に、フレーム更新周期を変化させて行なった実験で、この予想が確かめられた。

Jin'ichi Murakami 平成13年1月5日