next up previous contents
次へ: まとめ 上へ: Ergodic HMMを用いた未知・複数信号源クラスタリング問題の検討 戻る: 初期モデルの選択   目次

考察

本論文では、未知・複数信号源クラスタリング問題の中で複数話 者発話の問題を取り上げた。しかし、多くの問題が未解決である。 これらについて述べる。

  1. Baum-Welchアルゴリズムにおける初期パラメータの設定

    HMMの尤度関数は様々な局所的最大点が存在する。従って初 期パラメータの設定は重要である。今回の実験では尤度の高いHMMのモ デルを選択することにより78.8%の平均識別率を得た。しか し、分析窓長341.3msでコードブックサイズの数が64のときシ ンボル出力確率に真値をいれてBaum-Welch学習をおこない、平 均識別率を計算したところ96.2%が得られた。したがって、 別の初期パラメータの計算方法を考案することにより、より高 い識別性能が得られる可能性がある。

  2. 識別率の評価方法

    話者数が多い場合の識別率の評価方法を考える必要がある。今 回の実験では全ての可能性を探索して、最も高い値を識別率とし たが(式(8.13))、この方法では、話者数が多くな るに従い、組み合せの数は階乗で多くなる。そこで評価方法の 高速化が必要である。これに対しては、分岐限定法などの組み 合せ最適化の適用が考えられる。

  3. 話者識別の時間分解能

    複数話者発話の音声データでは、LPC分析のフレーム更新周期 の間に話者が遷移する。このフレームは話者を一意に決めるこ とができない。従って話者識別の時間分解能はフレーム更新周 期に依存する。この時間分解能を向上させる方法を考える必要 がある。

  4. Ergodic HMMの状態数

    一般に音声データには無音区間がある。この区間は、物理的に 話者を特定できない。この解決方法として、Ergodic HMMの状 態の数を話者の数より1つ多くして、無音区間のみを生成する 状態を入れる方法が考えられる。

  5. semi連続分布型HMMおよび連続分布型 HMM

    HMMには多くの種類がある。言語のような離散型のデータ を扱う場合は離散型HMMが好ましいが、話者識別など で連続量を扱うには連続型HMMが好ましいと考えられる。この 場合コードブックサイズの問題やVQ歪などの問題点がなくな るため、識別率は向上すると考えられる。たたし、今回の ような場合は学習データが少ない場合が考えられる。したがって semi連続分布型HMM[4]も考慮する必要がある。

  6. カテゴリ数$N$の推定

    今回の実験では、話者数(カテゴリ数)を4として実験を行なっ た。そして、この話者数は事前にわかっていると仮定した。こ の話者数を推定する方法を考える必要がある。



Jin'ichi Murakami 平成13年1月5日