未知・複数信号源クラスタリング問題 (信号源分割同定問題) は、観測された信号系列から異なる 個の信号源より生成され る区間 (ここではブロックと呼ぶことにする) を検出し (segmentation)、各ブロックが各々どの信号源(ここではカテゴリ と呼ぶことにする)から生成されたのかを分類・識別 (discrimination) する問題である。この問題は、音声情報処理分 野に限らず基本的かつ重要な問題である。
未知・複数信号源クラスタリング問題は大きくわけて以下の4つ の部分問題から構成される。
これらの4つの部分問題を同時に解くことは容易ではないので、い ずれかの条件を既知であると仮定して解法を検討する。
前回の報告[1]ではセグメンテーション位置およびカ テゴリ数が既知の場合に、Universal VQ符号帳およびその出現頻度 のヒストグラムのKullback情報量による各セグメントの個のカ テゴリへの識別問題を報告した。本稿では、2と3の問題、即ち、 観測された信号系列において、自動的にsegmentationを行ない、 segmentationされた各区間のカテゴリを識別する問題を扱う。手法 としてergodic HMMを利用する。
HMMは、非定常信号源の一つのモデルとして、特に音声認識の分野 で広く用いられている[2]。音声認識では、オートマトン 制御の下で確率的定常信号源を次々に切替えることにより、音声信 号を生成する信号源を表現するモデルとして、HMMが利用されてい る。このことから 信号源分解問題では、オートマトン制御の下 でカテゴリを次々と切替えることで信号系列を生成するモデルとし て、HMMが利用できる。
実験では信号源分解問題の応用として複数話者発話の識別問題 を検討する。実験から、男性話者4名の場合、長時間窓分析を用い たLPCケプストラムを用いることにより、音声資料により異なるが、 フレーム単位で平均、約70%の識別率が得られることを示す。この 値は高い値ではないが、学習アルゴリズムにおける初期パラメータ の値によって識別率が90%を越える音声資料があることから、この 初期パラメータを事前にある程度正確に推定しておくことにより、 今後さらに識別率が向上する可能性がある。最後に残された課題と、 その解決の展望について報告する。
なお、文献[3,4]において未知話者クラ スタリングに関する類似の検討がなされている。しかしながら、文 献で扱われた問題は少数の信号源 (pilot, controllers, noise) を扱っており、特定の信号源 (pilot) の同定 (追跡) に主眼がお かれている。また、通常の話者識別問題と本報告における複数話者 発話の識別問題の関係は、通常の話者識別問題では事前に多量の音 声を用いて話者モデルを作成し、それとは異なる未知の音声に対し て識別を行なう問題であるのに対し、本研究は連続した音声中に含 まれる複数の信号源をその音声のみを用いて事前学習することなく 分割・分類する問題を扱うため、異なっている。しかしながら、こ の研究の手法は、話者識別の問題・手法と密接に関連している。