HMMは、非定常信号源である音声信号を定常信号源の連結で表す統計的信号源モ デルであり、 DPマッチングによる方法に比べて、 スペクトル時系列の統計的変動をモデルのパラメータに反映させることができる 特徴がある。
HMMには、ある状態からすべての状態に遷移できる全遷 移型(Ergodic)モデルや、状態遷移が一定方向に進むleft-to-rightモデルなどが ある。通常、音声認識では、音声パターンの時間的な不可逆性の性質のために、 left-to-rightモデルが用いられる。
図に簡単な離散HMM(left to right モデル)の例を示す。
このHMMは三つの状態で構成され、2種類のラベルaとbのみからなるラベル系列 を出力する。初期状態はS1、最終状態をS3とし、図のような遷移のみ行なうも のとする。 6#6は、状態7#7から8#8への遷移確率を示し、[ ]内の数字は上段がラベ ルa、下段がラベルbを出力する確率を示す。 状態S1を例にとれば、S1から状態S1自身に0.8の確率で遷移し、遷移の際に1.0 の確率でaを出力し、0.0の確率でbを出力する。
出力シンボルがabbであった場合、状態遷移系列は 「S1-S1-S2-S3」、「S1-S2-S2-S3」の二通りがあり状態遷移系列を唯一つに決定 できない。よってこのモデルは、隠れマルコフモデルといえる。
HMMにはスペクトルパターンの表現方法により、離散分布モデル、連続分布モデ ル、半連続分布モデルの3種類に分類される。 以下に、それぞれの特徴を示す。
出現されるスペクトルパターンは、有限個のシンボルの組合わせで表現される。 出力確率は、スペクトルパター ンのクラスタ化(ベクトル量子化)によって、代表スペクトルパターン(符号ベ クトル)を生成し、各符号ベクトルの出現確率の組み合わせによって 表現する。図は2個のシンボルを出力する離散HMMである。
出現するスペクトルパターンは、連続値で表現される。 出力確率は、単一ガウス分布(正規分布)ま たは混合ガウス分布で表現される。 パラメータの自由度を減らすために無相関ガウス分布 (Digonal)が用いられることが多い。
連続分布モデルと離散分布モデルの中間の性質を持つ。 これは、連続分布モデルにおける混合ガウ ス分布を、すべてのモデルのすべての状態で共通にし、各分布の重みだけを変え るようにしたものである。結び混合分布モデル(tied-mixture model)とも呼ば れる。離散分布モデルにおける各符号ベクトルに確率分布を持たせたものという こともできる[4]。