next up previous
次へ: 問題の定式化 上へ: sugiyama 戻る: sugiyama

まえがき

未知・複数信号源クラスタリング問題 ($N$信号源分割同定問題) は、観測 された信号系列から異なる $N$ 個の信号源より生成される区間 (ここではブ ロックと呼ぶことにする) を検出し (segmentation)、各ブロックが各々いず れの信号源(ここではカテゴリと呼ぶことにする)から生成されたかを分類・識 別(discrimination) する問題である。この問題は、音声情報処理分野に限ら ず基本的かつ重要な問題である。例えば、複数話者発話の識別問題、音声・非 音声区間の識別問題、複数言語識別問題、音響単位の自動決定問題 [12] (音響言語モデル) 等、この形式に定式化できる。

未知・複数信号源クラスタリング問題は大別して以下の4つの部分問題から 構成される。

  1. カテゴリを特徴付ける特徴量の問題

  2. カテゴリ遷移の segmentation問題

  3. 各ブロックを$N$個のカテゴリに識別する問題

  4. カテゴリ数 $N$ を推定する問題

これらの4つの部分問題を同時に解くことは容易ではないので、条件をある程 度既知であると仮定して解法を検討する。

カテゴリ数 $N$ 及び segmentation が既知の場合、Universal VQ 符号帳と その出現確率による解法(出現確率クラスタリング法と略す)を提案する [1]。この方法ではブロック毎に算出される複数個の出現確率を $N$ 個の カテゴリにクラスタリングすることにより識別が行なわれ、segmentation が 未知の場合にも応用が可能である。 segmentation が未知の場合、ergodic HMM による解法を提案する。この手法は、カテゴリ遷移を ergodic HMM でモ デル化するものである。ここでは、Baum-Welch アルゴリズムでHMMパラメータ を推定し、Viterbiアルゴリズムで最適状態遷移系列を推定することにより、 segmentation とカテゴリ遷移との同時推定が行なわれる。ergodic HMM は話 者認識や言語識別においてその有効性が示されている [2,3,4]。 本報告では前者の手法につ いて未知話者クラスタリングに適用した実験結果を述べることとし、 ergodic HMM を用いる方法については次の報告[5]で述べること とする。さらに、カテゴリ数 $N$ の推定問題を検討する。

文献[6,7]において未知話者クラスタリングに関す る類似の検討がなされている。しかしながら、文献で扱われた問題は少数の信 号源 (pilot, controllers, noise) を扱っており、特定の信号源 (pilot) の 同定 (追跡) に主眼がおかれている。

本報告における話者識別問題と通常の話者識別問題との違いは、あらかじめ の学習 (事前学習) の有無である。本問題は与えられたひとつながりの音声に 含まれる複数の信号源をその音声のみを用いて、事前学習することなく分割・ 分類することである。一方、通常の話者識別問題は事前に多量の音声を用いて 話者モデルを作成し、それとは異なる未知の音声に対して識別を行なう。通常 の話者識別で考慮しなければならないとされる話者特徴の時間変化などを本問 題では考慮する必要がない。しかしながら、未知話者の分類のためには話者識 別の問題・手法と密接に関わりあっている。



Jin'ichi Murakami 平成13年10月5日