本稿では、信号系列を複数個の信号源に分解する問題を取り上げ、 ergodic HMMを用いた解法を示した。応用例として複数話者発話の 分解問題をあげ、実験によりergodic HMMによる識別性能を示した。 この実験から以下の事柄が示された。
今後の課題として、以下の事項が挙げられよう。
話者性を特徴付けるような話者特徴量の抽出について検討する必要 がある。今回は、長時間窓分析したLPCケプストラムが話者性を特徴づける ことが示された。この性質を定量的に測定するため、この分析 窓長を変えて識別性能を調べる必要がある。なお、この類似の方法 として文献[]では統計的なsegmental model で実験を行なっている。他にも複数個のフレームからVQコードの出 現頻度分布を計算し、これを特徴量とする方法 [11]が考えられる。この方法は、前回の報告 [1]で行なった頻度分布のクラスタリングの結果を見 ると、話者性抽出に対してかなり有効であると思われる。また、ケ プストラムとともにΔケプストラムを用いることにより、識別性能が 向上すると考えられる。
VQ符号帳について検討を行なう必要がある。複数話者発話の分解問 題のためには、コードサイズが256では小さい可能性がある。一方、 サイズを大きくした場合、学習データにおいて出現するコードが少 なくなるため。シンボル出力確率に信頼性が低下する。今後、最適 なコードサイズを求める必要があろう。
今回の実験では離散型HMMのみ実験を行なった。HMMには、その他、 Fuzzy VQ HMM や連続型HMMがある。特に連続型HMMは、Universal 符号帳が必要でなくなるため、VQ歪などの問題点がなくなる。これ らのHMMについて検討することも重要である。
HMMの尤度関数は様々な局所的最適点が存在すると言われているが、 それらの局所的最適点がそれぞれ異なった概念のカテゴリ識別を表 現していると考えられる。例えば、ある最適点は話者識別を表現し、 別のある最適点は言語識別を表現しているという具合である。よっ てBaum-Welchアルゴリズムにおける収束計算の初期パラメータの設 定について考察する必要がある。また、今回の実験からシンボル出 力確率を真値にした時、識別性能が大きく向上することがわかった。 したがって、逆に、この値の信頼性と識別率の関係を調べる必要が ある。
通常の単純マルコフモデルでは、現在の状態は1つ前の状態しか考 慮にいれていないため長時間における他状態への遷移の情報が欠落 している。このため、より長時間の推移を考慮する second order HMMの考察も重要であると考えられる。
話者数を多くした場合の実験において識別評価方法を考える必要が ある。今回の実験では全ての可能性を調べて、最も高い値を識別率 としたが、この方法では、話者数が多くなるにしたがい、組み合せ の数は階乗で多くなる。したがって識別評価手続きの高速化が必要 である。これに対しては、分岐限定法などの組合せ最適化の適用が 考えらよう。
実際の音声にはポーズ区間がある。この区間は、物理的に話者を特 定できない。今回の実験では、ergodic HMMの状態を話者の数と同 じにしたため、この音声中にポーズがある場合には問題になる。こ の解決方法として、状態の数を話者の数より1つ多くして、ポーズ 区間のみを生成する状態を挿入する方法がある。同様な手法で雑音 区間など考えることができる。