次へ: むすび 上へ: Ergodic HMMを用いた未知・複数信号源クラスタリング問題の検討 戻る: 初期モデルの選択

考察

本論文では、未知・複数信号源クラスタリング問題の中で複数話者発話の問題を取り上げた。しかし、多くの問題が未解決である。これらについて述べる。

Baum-Welchアルゴリズムにおける初期パラメータの設定
HMMの尤度関数は様々な局所的最大点が存在する。従って初期パラメータの設定は重要である。今回の実験では尤度の高いHMMのモデルを選択することにより78.8%の平均識別率を得た。しかし、分析窓長341.3msでコードブックサイズの数が64のときシンボル出力確率に真値をいれてBaum-Welch学習をおこない、平均識別率を計算したところ96.2%が得られた。したがって、別の初期パラメータの計算方法を考案することにより、より高い識別性能が得られる可能性がある。
識別率の評価方法
話者数が多い場合の識別率の評価方法を考える必要がある。今回の実験では全ての可能性を調べて、最も高い値を識別率としたが（式(1)）、この方法では、話者数が多くなるに従い、組み合せの数は階乗で多くなる。そこで評価方法の高速化が必要である。これに対しては、分岐限定法などの組み合せ最適化の適用が考えられる。
話者識別の時間分解能
複数話者発話の音声データでは、LPC分析のフレーム更新周期の間に話者が遷移する。このフレームは話者を一意に決めることができない。従って話者識別の時間分解能はフレーム更新周期に依存する。この時間分解能を向上させる方法を考える必要がある。
Ergodic HMMの状態数
一般に音声データには無音区間がある。この区間は、物理的に話者を特定できない。この解決方法として、Ergodic HMMの状態の数を話者の数より１つ多くして、無音区間のみを生成する状態を入れる方法が考えられる。
連続分布型 HMM
HMMには多くの種類がある。言語のような離散型のデータを扱う場合は離散型HMMが好ましいが、話者識別などで連続量を扱うには連続型HMMが好ましいと考えられる。この場合コードブックサイズの問題やVQ歪などの問題点がなくなるため、識別率は向上すると考えられる。
カテゴリ数の推定
今回の実験では、話者数（カテゴリ数）を４として実験を行なった。そして、この話者数は事前にわかっていると仮定した。この話者数を推定する方法を考える必要がある。

Jin'ichi Murakami 平成13年5月14日