あらまし 入力信号系列を複数個の信号源に分割・同定する問題は、
音声情報処理のみならず応用範囲が極めて広い。ここではこの問題の定式化、
解法を述べる。解法として、Universal VQ 符号帳とその出現確率による出現
確率クラスタリング法および ergodic HMM による方法を提案する。前者は各
区間 (segmentation) を既知とするクラスタリングに基づく識別手法、後者は
カテゴリとその遷移をergodic HMM でモデル化し segmentation とカテゴリ識
別との同時推定を行なうものである。一つの応用例として複数話者発話音声の
分割同定を検討する。本報告では前者の手法に限定して実験により有効性を示
し、今後の課題について述べる。
Abstract This report describes an unknown-multiple signal source clustering problem of input signal sequence, and its application to unknown speaker clustering. This type of problems has wide applications in various fields. This report formulates the problem and proposes the solution based on an Universal VQ codebook and its occurrence probability (Occurrence Probability Clustering Method), and ergodic HMM. The former requires the segmentation boundaries, the latter provides the segmentation and clustering simultaneously. This report also describes the former's application to unknown-multiple speaker clustering and evaluates the performance.
|