next up previous contents
次へ: HMMの種類 上へ: 音声認識 戻る: 音声認識の分類   目次

HMMとは

音声認識は,パターン認識の一分野であるため,音声波形から特徴量を抽出した 後の処理は,通常のパターン認識技術と本質的には同じである.その違いは, 音声が時系列パターンであること,そして言語情報(音素,単語,構文,意味等) の制約を受けることである. 近年,音声の時系列パターンに対して統計的・確率的なパターン認識の手法とし てHMM(Hidden Markov Model)が一般的に使用されている[3].

HMMは,出力シンボルによって一意に状態遷移先が決まらないという意味での非 決定有限状態オートマトンとして定義される.一般に,マルコフモデルは 最終状態の概念がない.しかし音声認識に用いる場合は初期状態,最終状態を設 定する.音声認識で用いられるHMMは,left-to-rightモデルと呼ばれる. このモデルでは,状態と出力シンボルの二過程を考え, 状態が確率的に遷移する ときに対応して確率的にシンボルを出力する.このとき観測できるのはシンボル 系列だけであることから隠れマルコフモデルと呼ばれる.

HMMによる音声認識では,各カテゴリのHMMに対して入力パターンの特徴量の時系 列に対する尤度を求め,それを最大にするモデルに対応するカテゴリを認識結果 とするのが基本手法である.

HMMの音声認識における利点を以下に示す.

しかし,次のような問題点もある.



平成25年10月13日