話者識別の研究から話者識別には長時間平均スペクトルが有効で あることが知られている[10]。従って分析窓長を長くす ることによって話者の識別性能が向上することが予想される。そこ で分析窓長を変化させたときの識別率の変化を調べる。 Universal コードブックサイズは256 と64 で行なう。また、い ずれの実験でもフレーム更新周期は分析窓長の半分とする。平均 識別率は、各音声資料に対し、乱数により16個のランダムな初期 モデルを作成して、その各々について試行を行なった音声資料 8 セットの平均値、すなわち計128回の試行に対する平均値である。 HMMの学習は160回繰り返して終了する。その他の実験条件は実験 3と同一である。この実験結果を図 5 に 示す。この図において縦軸は平均識別率、横軸は分析窓長である。
この図からわかることを以下に示す。
これらの結果は、次のような原因によると考えている。分析窓 長を広げるとケプストラムのパラメータに含まれる話者特徴量 は増加する。 従って、分析窓長を広げると識別性能が向上する。 しかし、分析窓長を広げると得られるデータ量が減少する。例 えば分析窓長 683msではデータは平均約440個である。そのため Ergodic HMMのパラメータの推定精度が低下する。よって分析窓 幅がある閾値を越えると、識別性能は低下する。
なお、データ量の減少を防ぐために、フレーム更新周期を短く することが考えられる。しかし、この場合フレーム更新周期の 間に話者が遷移するデータが増加する。このデータは2人の話 者の特徴量が入るため、不安定な特徴量を含む。したがってフ レーム更新周期を短くしてデータ量を増加させても、識別率は 向上しないことが予想される。実際に、フレーム更新周期を変 化させて行なった実験で、この予想が確かめられた。