next up previous contents
次へ: Ergodic HMM による複数話者発話の識別の実験結果 上へ: 複数話者発話の識別実験 戻る: HMMの初期パラメータ   目次

識別率の評価方法

Viterbi アルゴリズムやforward アルゴリズムから得られる最適状態遷移系列は カテゴリの番号であって、カテゴリと話者の関係は未知である。 そのため以下の式で識別率を算出した。


\begin{displaymath}
R = \frac{1}{T} \max_{\sigma} \sum_{t=1}^T
d (\tau(\mbox{\boldmath$x$}_t),\sigma(S_t))
\end{displaymath} (8.1)

ここで、 $\tau$は最適状態遷移系列、$\sigma$ $(1, 2,\ldots,
N)$ の任意の置換、$ S_t $ は各発話の正解カテゴリ番号、$d$は値 が一致した時のみ1それ以外は0である関数である。

本節では、フレーム毎に、各カテゴリ番号を$\sigma$で置換し、 $N!$ 通りの置換について正解率を算出しその中の最大値を識別率と している。従って話者が4名の場合$24(=4!)$通りの組み合わせを調 べることになる。

なお、複数話者発話の音声データでは、LPC分析のフレーム更新周期 の間に話者が遷移する。このフレームでは話者を一意に決めること ができない。 そこで話者が遷移したフレームは、 どちらの話者が 選択されても正解にする。なお、実際の応用のときは、例えば1秒 ごとにブロックにわけ、この間は、同一話者が話していると仮定し てHMMを学習しても近似的には問題ない。



Jin'ichi Murakami 平成13年1月5日