next up previous
次へ: Ergodic HMM による複数話者発話の識別の実験結果 上へ: 複数話者発話の識別実験 戻る: HMMの初期パラメータ

識別率の評価方法

Forward復号法やViterbi復号法から得られる最適状態遷移系列は カテゴリの番号であって、カテゴリと話者の関係は未知である。 そのため以下の式で識別率を算出する。


\begin{displaymath}
R = \frac{1}{T} \max_{\sigma} \sum_{t=1}^T
d (\tau(\mbox{\boldmath$x$}_t),\sigma(S_t))
\end{displaymath} (1)

ここで、 $\tau$は最適状態遷移系列、$\sigma$ $(1,
2,\ldots, N)$ の任意の置換、$ S_t $ は各発話の正解カテゴリ番号、 $d$は値が一致した時のみ1それ以外は0である関数である。 本論文では、 各カテゴリ番号を$\sigma$で置換し、$N!$ 通り の置換について正解率を算出しその中の最大値を識別率とする。 従って話者が4名の場合$24(=4!)$通りの組み合わせを調べる。

なお、複数話者発話の音声データでは、LPC分析のフレーム更新周期 の間に話者が遷移する。このフレームでは話者を一意に決めるこ とができない。 そこで話者が遷移したフレームは、 どちら の話者が選択されても正解にする。



Jin'ichi Murakami 平成13年5月14日