本論文では、未知・複数信号源クラスタリング問題の中で複数話 者発話の問題を取り上げた。しかし、多くの問題が未解決である。 これらについて述べる。
HMMの尤度関数は様々な局所的最大点が存在する。従って初 期パラメータの設定は重要である。今回の実験では尤度の高いHMMのモ デルを選択することにより78.8%の平均識別率を得た。しか し、分析窓長341.3msでコードブックサイズの数が64のときシ ンボル出力確率に真値をいれてBaum-Welch学習をおこない、平 均識別率を計算したところ96.2%が得られた。したがって、 別の初期パラメータの計算方法を考案することにより、より高 い識別性能が得られる可能性がある。
話者数が多い場合の識別率の評価方法を考える必要がある。今 回の実験では全ての可能性を探索して、最も高い値を識別率とし たが(式(8.13))、この方法では、話者数が多くな るに従い、組み合せの数は階乗で多くなる。そこで評価方法の 高速化が必要である。これに対しては、分岐限定法などの組み 合せ最適化の適用が考えられる。
複数話者発話の音声データでは、LPC分析のフレーム更新周期 の間に話者が遷移する。このフレームは話者を一意に決めるこ とができない。従って話者識別の時間分解能はフレーム更新周 期に依存する。この時間分解能を向上させる方法を考える必要 がある。
一般に音声データには無音区間がある。この区間は、物理的に 話者を特定できない。この解決方法として、Ergodic HMMの状 態の数を話者の数より1つ多くして、無音区間のみを生成する 状態を入れる方法が考えられる。
HMMには多くの種類がある。言語のような離散型のデータ を扱う場合は離散型HMMが好ましいが、話者識別など で連続量を扱うには連続型HMMが好ましいと考えられる。この 場合コードブックサイズの問題やVQ歪などの問題点がなくな るため、識別率は向上すると考えられる。たたし、今回の ような場合は学習データが少ない場合が考えられる。したがって semi連続分布型HMM[4]も考慮する必要がある。
今回の実験では、話者数(カテゴリ数)を4として実験を行なっ た。そして、この話者数は事前にわかっていると仮定した。こ の話者数を推定する方法を考える必要がある。