次へ: 信号源分解問題 上へ: main5 戻る: main5

まえがき

未知・複数信号源クラスタリング問題 (信号源分割同定問題) は、観測された信号系列から異なる個の信号源より生成される区間 (ここではブロックと呼ぶことにする) を検出し (segmentation)、各ブロックが各々どの信号源(ここではカテゴリと呼ぶことにする)から生成されたのかを分類・識別 (discrimination) する問題である。この問題は、音声情報処理分野に限らず基本的かつ重要な問題である。

未知・複数信号源クラスタリング問題は大きくわけて以下の4つの部分問題から構成される。

カテゴリを特徴付ける特徴量の問題
カテゴリ遷移の segmentation問題
各ブロックを個のカテゴリに識別する問題
カテゴリ数を推定する問題

これらの4つの部分問題を同時に解くことは容易ではないので、いずれかの条件を既知であると仮定して解法を検討する。

前回の報告[1]ではセグメンテーション位置およびカテゴリ数が既知の場合に、Universal VQ符号帳およびその出現頻度のヒストグラムのKullback情報量による各セグメントの個のカテゴリへの識別問題を報告した。本稿では、２と３の問題、即ち、観測された信号系列において、自動的にsegmentationを行ない、 segmentationされた各区間のカテゴリを識別する問題を扱う。手法としてergodic HMMを利用する。

HMMは、非定常信号源の一つのモデルとして、特に音声認識の分野で広く用いられている[2]。音声認識では、オートマトン制御の下で確率的定常信号源を次々に切替えることにより、音声信号を生成する信号源を表現するモデルとして、HMMが利用されている。このことから信号源分解問題では、オートマトン制御の下でカテゴリを次々と切替えることで信号系列を生成するモデルとして、HMMが利用できる。

実験では信号源分解問題の応用として複数話者発話の識別問題を検討する。実験から、男性話者4名の場合、長時間窓分析を用いたLPCケプストラムを用いることにより、音声資料により異なるが、フレーム単位で平均、約70%の識別率が得られることを示す。この値は高い値ではないが、学習アルゴリズムにおける初期パラメータの値によって識別率が90%を越える音声資料があることから、この初期パラメータを事前にある程度正確に推定しておくことにより、今後さらに識別率が向上する可能性がある。最後に残された課題と、その解決の展望について報告する。

なお、文献[3,4]において未知話者クラスタリングに関する類似の検討がなされている。しかしながら、文献で扱われた問題は少数の信号源 (pilot, controllers, noise) を扱っており、特定の信号源 (pilot) の同定 (追跡) に主眼がおかれている。また、通常の話者識別問題と本報告における複数話者発話の識別問題の関係は、通常の話者識別問題では事前に多量の音声を用いて話者モデルを作成し、それとは異なる未知の音声に対して識別を行なう問題であるのに対し、本研究は連続した音声中に含まれる複数の信号源をその音声のみを用いて事前学習することなく分割・分類する問題を扱うため、異なっている。しかしながら、この研究の手法は、話者識別の問題・手法と密接に関連している。

Jin'ichi Murakami 平成13年10月4日