next up previous
次へ: 無音区間を除去する効果 上へ: 未知・複数話者クラスタリング実験 戻る: 話者数・単語数と識別率との関係


量子化歪みによる話者数の推定

変形LBG法で算出される平均量子化歪み $D$を基準として、話者数$N$を推定 する問題を考える。 単語数を固定して話者数や性別を変化させた場合の最適 量子化歪みの変化を図7に示す。この図では、5単語、KL Type2を用いている。図より多少のばらつきはあるものの話者数や性別が異なっ ても最適量子化歪み値は大きく変化しないことがわかる。他の単語数及び尺度 の場合も同様の傾向が得られている。 男性2名・女性1名、5単語、KL Type2の場合における分割の個数と量子化歪みの関係を図 8に示す。図では3回試行の結果を重ね書きしている。 この例では識別率は100%である。図からわかるように分割を増加させた場合、 分割個数が真の話者数になるまでは量子化歪みの減少が急激であるがそれ以降 の減少度が小さい。図9は、男性4名、5単語、KL Type2の場合であるが、量子化歪み変化の曲線がなだらかになっており話者数 推定が図8に比べて困難である。これは話者が全て男 性であるのでクラスタ形成が明確にできないためであると考えられる。この例 では識別率は約90%である。

次に話者を固定して単語数を変化させた場合の最適量子化歪みの変化を図 10に示す。この図は、男性2名・女性2名、KL Type2の場合である。図から単語数の増加に従い最適量子化歪みの値が減少す ることがわかる。これは単語数の増加により同一話者における符号出現確率の ばらつきが減少するためであると考えられる。 以上より各発話 (ブロック) の長さ (フレーム数) がある程度限定されれば量子化歪みの値に基づいて話者 数を推定することができると考えられる。また図 10から単語数がある程度多くなれば最適量 子化歪みの減少度が小さくなるので長さが未知であっても量子化歪みの値から 話者数を推定することができると考えられる。

図 8: 量子化歪みと分割個数との関係 (男性2名・女性1名、5単語、尺度:KL Type2)
\begin{figure}\vspace{-5mm}
\begin{center}
\fbox{\epsfile{file=PS/DSTvsCAT.MFM.5w.KL2.ps,width=75mm}} \vspace{-4mm}
\end{center}\end{figure}

図 9: 量子化歪みと分割個数との関係 (男性4名、5単語、尺度:KL Type2)
\begin{figure}\vspace{-10mm}
\begin{center}
\fbox{\epsfile{file=PS/DSTvsCAT.M4.5w.KL2.ps,width=75mm}} \vspace{-4mm}
\end{center}\end{figure}

図 10: 最適量子化歪みと単語数との関係 (男性2名・女性2名、尺度:KL Type2)
\begin{figure}\vspace{-10mm}
\begin{center}
\fbox{\epsfile{file=PS/DSTvsWORD.MFMF.KL2.ps,width=75mm}} \vspace{-4mm}
\end{center}\end{figure}




Jin'ichi Murakami 平成13年10月5日