話者識別の研究から話者識別には長時間平均スペクトルが有効で あることが知られている[13]。従って分析窓長を長くす ることによって話者の識別性能が向上することが予想される。そこ で分析窓長を変化させたときの識別率の変化を研究した。 Universal コードブックサイズは256 と64 で行なった。また、い ずれの実験でもフレーム更新周期は分析窓長の半分とした。平均 識別率は、各音声資料に対し、乱数により16個のランダムな初期 モデルを作成して、その各々について試行を行なった音声資料8 セットの平均値、すなわち計128回の試行に対する平均値で求めた。 HMMの学習は160回繰り返して終了する。その他の実験条件は実験 3と同一である。この実験結果を図 8.5 に 示した。この図において縦軸は平均識別率、横軸は分析窓長である。
この図から以下のことが示される。
これらの結果は、次のような原因によると考えている。
分析窓長を広げるとケプストラムのパラメータに含まれる話者特徴 量は増加する。 従って、分析窓長を広げると識別性能が向上する。 しかし、分析窓長を広げると得られるデータ量が減少する。例えば 分析窓長 683msではデータは平均約440個である。そのためErgodic HMMのパラメータの推定精度が低下する。よって分析窓幅がある閾値 を越えると、識別性能は低下する。
なお、データ量の減少を防ぐために、フレーム更新周期を短く することが考えられる。しかし、この場合フレーム更新周期の 間に話者が遷移するデータが増加する。このデータは2人の話 者の特徴量が入るため、不安定な特徴量を含む。したがってフ レーム更新周期を短くしてデータ量を増加させても、識別率は 向上しないことが予想される。実際に、フレーム更新周期を変 化させて行なった実験で、この予想が確かめられた。