next up previous
次へ: Fuzzy VQ の効果 上へ: 未知・複数話者クラスタリング実験 戻る: 量子化歪みによる話者数の推定

無音区間を除去する効果

音声データベースは話者毎に独立に収録・作成されているため無音区間が収 録環境などに影響されその周波数特性が話者毎に異なっている可能性がある。 各単語の前後に付けられている無音区間を取り除いた時の識別率を図 11(男女同数)、図12(男性のみ)に示す。 話者により周波数特性が異なることに加えて無音区間が除かれ全体の継続長が 短くなるため1単語を用いた時の識別率は大幅に減少している。図 13(話者4人)、 図14(話者8人)に単語数と識別率との関 係を示す。単語数の増加にほぼ比例して識別率が向上している。無音区間があ る場合と異なって、男性のみの場合はどの条件に対しても識別率は KL Type 2 $>$ Euclid $>$ KL Type 1 の順となっているのに対して、男女混合の場合は KL Type 2 が最良であり、単語数によってEuclid と KL Type1 との識別率の 逆転がおこっている。以下の実験では無音区間を取り除くことにする。

図 11: 無音区間を取り除いた時の出現確率クラスタリング法における話者数と識別率との 関係 (男女同数)
\begin{figure}\vspace{-5mm}
\begin{center}
\fbox{\epsfile{file=PS/RATEvsSpeaker_MF.ps,width=75mm}} \vspace{-4mm}
\end{center}\end{figure}

図 12: 無音区間を取り除いた時の出現確率クラスタリング法における話者数と識別率との 関係 (男性のみ)
\begin{figure}\begin{center}
\fbox{\epsfile{file=PS/RATEvsSpeaker_Male.ps,width=75mm}} \vspace{-4mm}
\end{center}\end{figure}

図 13: 無音区間を取り除いた時の出現確率クラスタリング法における単語数と識別率との 関係 (話者4人)
\begin{figure}\vspace{-10mm}
\begin{center}
\fbox{\epsfile{file=PS/RATEvsWORDS-4_NoNoise.ps,width=75mm}} \vspace{-4mm}
\end{center}\end{figure}

図 14: 無音区間を取り除いた時の出現確率クラスタリング法における単語数と識別率との 関係(話者8人)
\begin{figure}\vspace{-10mm}
\begin{center}
\fbox{\epsfile{file=PS/RATEvsWORDS-8_NoNoise.ps,width=75mm}} \vspace{-4mm}
\end{center}\end{figure}



Jin'ichi Murakami 平成13年10月5日