次へ: 話者特徴量と長時間窓分析 上へ: Ergodic HMMを用いた未知・複数信号源クラスタリング問題の検討 戻る: 識別率の評価方法

Ergodic HMM による複数話者発話の識別の実験結果

LPCケプストラムを分析窓長21.3msで計算した時の実験結果を図 4に示す。平均識別率は、実験１、２に関しては8セットの音声資料の平均値で、実験３に関しては、 8セットの音声資料それぞれに対し 16回の異なる初期モデルで実験した、合計128回の平均値である。この図において、縦軸が平均識別率で横軸がHMMの学習回数である。□は実験１の、△は実験２の、○は実験３の結果である。また、実線で■▲●はViterbi 復号法による平均識別率で、破線で□△○はForward復号法による平均識別率である。この図からわかることを以下に示す。

**図 4:** 学習回数と平均識別率の関係
$\includegraphics[width=65mm]{PS/figure1.epsf}$

Viterbi復号法とForward復号法の平均識別率を比較すると、差は小さい。しかし、パラメータの全てを真値にした実験（実験１）では、Forward復号法では 94.0% であったのに対し、Viterbi復号法では 48.3%しか得られなかった。この原因として Viterbi復号法は誤った経路を選択した場合、最後まで経路を間違えてしまうのに対し、 Forward復号法は間違った経路を選択しても、その後正しい経路を選択する可能性があるためと考えている。
シンボル出力確率 $\mbox{\boldmath$B$}^{(0)}$ のみ真値にした実験（実験２）では平均識別率約 75%が得られた。しかし、学習回数を繰り返すに従い、平均識別率は低下した。また $\mbox{\boldmath$B$}^{(0)}$ をランダムにした実験（実験３）では平均識別率で 30%から35%と低い値になった。この値は学習回数を増加してもあまり向上しない。この原因として、今回の実験は音素認識で使用される分析条件で実験を行なったため、パラメータは主に音素のカテゴリを特徴づけるパラメータになっていて、話者を特徴づけるパラメータになっていないためと考えている。

Subsections

Jin'ichi Murakami 平成13年5月14日