next up previous contents
次へ: 未知・複数信号源クラスタリング問題 上へ: 確率的言語モデルによる自由発話認識に関する研究 戻る: まとめ   目次


Ergodic HMMを用いた未知・複数信号源クラスタリング問題の検討

異なる $N$ 個の信号源より生成された信号系列が、どの信号源 から生成されたのかを分割・識別する問題を、未知・複数信号源 クラスタリング問題とする。この問題は、音声処理分野に限らず 言語処理などの分野でも重要なテーマである。たとえば音響単位 の自動決定問題[35]や、混在する話者や言語を識別する問題、 発話様式(単語・文発声・連続発声等)の識別問題、音声・非音 声の識別問題、さらに言語における品詞ラベルの自動的な作成お よび形態素解析[56]などがこの問題に相当する。

この未知・複数信号源クラスタリング問題は大きくわけて以下の4 つの部分問題から構成される。

  1. カテゴリを特徴付ける特徴量の問題
  2. カテゴリ遷移の セグメンテーション位置を決める問題
  3. セグメンテーションされた各ブロックを$N$個のカテゴリに識別する問題
  4. カテゴリ数 $N$ を推定する問題

本論文では、カテゴリ数$N$ が既知の場合に、観測された信号系 列に対し、自動的にセグメンテーションを行ない、セグメンテー ションされた各区間のカテゴリを識別する問題を扱った。

ところでleft-to-right HMMは、非定常信号源の一つのモデルとして、特に音声 認識の分野で広く用いられている[4]。このモデルはオー トマトン制御の下で確率的定常信号源を次々に切替えることによ り、非定常信号源を表現している。音声認識では、 音声の特性を考慮して、left-to-right型のHMMが用いられる。し かし、話者認識や言語のモデリングにおいては、全ての状態が全 ての状態に接続しているErgodic HMM が使用されている [42]。このErgodic HMMを未知・複数信号源クラスタリ ング問題に利用した時、カテゴリーが状態に相当し、信号系列は 状態から出力されるシンボル系列と考えることができる。

実験では未知・複数信号源クラスタリング問題の応用として複数 話者発話の識別問題を検討した。実験から、男性話者4名の場合、 長時間窓分析を用いたLPCケプストラムを用いることにより、音 声資料により異なるが、フレーム単位で約67.5%の平均識 別率が得られることを示した。次に異なる初期モデルから尤度の高 いモデルを選択することにより、約78%の平均識別率が 得られることを示した。最後に残された課題と、その解決の展望に ついて報告した。

なお過去に行なわれた類似した研究としては、筆者らは文献 [79]においてセグメンテーション位置およびカテゴ リ数が既知の場合に、universalコードブックおよびその出現頻 度によるKullback情報量を使用して話者を識別する方法を報告し た。文献 [8,9]では本論文と同様な複 数話者発話の識別問題を扱っている。しかし1話者の音響パラメー タを1つのガウス分布であると仮定し、全音声データに対し VQ clusteringを続けることによって問題の解決を図っている。また、 通常の話者識別問題[42] は事前に多量の音声を用いて 話者モデルを作成し、それとは異なる認識用の入力音声に対して 逐次識別を行なう問題であるのに対し、本研究は連続した音声中 に含まれる複数の信号源を、その音声のみを用いて事前学習なし で分割・分類する問題を扱っている。



Subsections

Jin'ichi Murakami 平成13年1月5日