量子化歪みによる話者数の推定

変形LBG法で算出される平均量子化歪み

を基準として、話者数

を推定する問題を考える。単語数を固定して話者数や性別を変化させた場合の最適量子化歪みの変化を図7に示す。この図では、５単語、KL Type2を用いている。図より多少のばらつきはあるものの話者数や性別が異なっても最適量子化歪み値は大きく変化しないことがわかる。他の単語数及び尺度の場合も同様の傾向が得られている。男性２名・女性１名、５単語、KL Type2の場合における分割の個数と量子化歪みの関係を図 8に示す。図では３回試行の結果を重ね書きしている。この例では識別率は100%である。図からわかるように分割を増加させた場合、分割個数が真の話者数になるまでは量子化歪みの減少が急激であるがそれ以降の減少度が小さい。図9は、男性４名、５単語、KL Type2の場合であるが、量子化歪み変化の曲線がなだらかになっており話者数推定が図8に比べて困難である。これは話者が全て男性であるのでクラスタ形成が明確にできないためであると考えられる。この例では識別率は約90%である。

次に話者を固定して単語数を変化させた場合の最適量子化歪みの変化を図 10に示す。この図は、男性２名・女性２名、KL Type2の場合である。図から単語数の増加に従い最適量子化歪みの値が減少することがわかる。これは単語数の増加により同一話者における符号出現確率のばらつきが減少するためであると考えられる。以上より各発話 (ブロック) の長さ (フレーム数) がある程度限定されれば量子化歪みの値に基づいて話者数を推定することができると考えられる。また図 10から単語数がある程度多くなれば最適量子化歪みの減少度が小さくなるので長さが未知であっても量子化歪みの値から話者数を推定することができると考えられる。

**図 8:** 量子化歪みと分割個数との関係（男性２名・女性１名、５単語、尺度：KL Type2）
$\begin{figure}\vspace{-5mm} \begin{center} \fbox{\epsfile{file=PS/DSTvsCAT.MFM.5w.KL2.ps,width=75mm}} \vspace{-4mm} \end{center}\end{figure}$

**図 9:** 量子化歪みと分割個数との関係（男性４名、５単語、尺度：KL Type2）
$\begin{figure}\vspace{-10mm} \begin{center} \fbox{\epsfile{file=PS/DSTvsCAT.M4.5w.KL2.ps,width=75mm}} \vspace{-4mm} \end{center}\end{figure}$

**図 10:** 最適量子化歪みと単語数との関係（男性２名・女性２名、尺度：KL Type2）
$\begin{figure}\vspace{-10mm} \begin{center} \fbox{\epsfile{file=PS/DSTvsWORD.MFMF.KL2.ps,width=75mm}} \vspace{-4mm} \end{center}\end{figure}$