次へ: 連続HMM
上へ: HMMを用いた音声認識
戻る: HMMを用いた音声認識
目次
音声認識は,パターン認識の一分野である.音声波形から認識に有効な特徴パラ
メータが抽出された後は, 通常のパターン認識の技術と本質的に変わりはない.通常のパターン認識との違いは,音声パターンが時系列パターンであることと言語情報の制約を受けることである.
パターン認識には構造的・構文的パターン認識法と統計的・確率的パターン認識
法が存在する。最近になって, 音声パターンの時系列パターンに対しての統計的・確率的パターン認識法がHMM(Hidden Markov Model;隠れマルコフモデル)による手法である [1] .
HMMは,出力シンボルによって一意に状態遷移先が決まらないという意味での非決定状態オートマトンとして定義される.
このモデルでは,状態と出力シンボルの2課程を考え, 状態が確率的に遷移するときに対応して確率的にシンボルを出力する.
このとき観測できるのはシンボル系列だけであることからHidden(隠れ)マルコフモデルとよばれている.
HMMによる音声認識では,各カテゴリのHMMに対して入力パターンの特徴パラメータ時系列に対する尤度を求め,それを最大にするモデルに対応するカテゴリを認識結果とするのが基本手法である.
HMMは以下の組から定義される.
- 状態の有限集合;
- 出力シンボルの集合;
- 状態遷移確率の集合;
; は状態 から 状態 への遷移確率,ここで
.
- 出力確率の集合;
; は状態 から においてシンボルを出力する確率.
- 初期状態確率の集合;
; は初期状態がである確率,
.
- 最終状態の集合;
出力シンボルを連続値として表す場合と,有限個のシンボルの組合せで表現する場合があり,以下のように分類される [3] .
Subsections
平成18年3月20日