認識アルゴリズム

次へ: Viterbiアルゴリズム 上へ: HMMによる音声認識 戻る: HMMの例(left-to-rightモデル) 目次

認識アルゴリズム

$y = {y_1, y_2,\cdots, y_T}$ を観測(出力)系列とする．具体的には，スペクトルやケプストラムの時系列である．このとき，各HMMモデルによって

が生起する確率(尤度)

はHMMによって表現される単語や音素に対応)を求め，最大確率(最大尤度)を与えるモデルを選んで，これを認識結果とする．図3にHMMを用いた単語音声認識の方法を示す．

**図 3:** HMMを用いた単語音声認識の方法
$\includegraphics{eps/rec_arg2.eps}$

$q = {q_{i0}, q_{i1},\cdots, q_{iT}}$ を状態遷移行列(ただし $q_{iT} \in F)$ とすれば，

$\begin{displaymath} P(y｜M) = \sum_{i_0, i_1,\cdots, i_T}P(y｜q, M)・P(q｜M) \end{displaymath}$

(11)

と表すことができる．そして一般的に

の値は, トレリスアルゴリズムで求められる．

フォワード変数を定義し, 符号ベクトルを出力して状態にある確率とすれば, $i = 1, 2,\cdots, S$ とおいて, 以下の式を得る.

$\displaystyle \alpha(i, t) =\left\{ \begin{array}{ll} \pi_i & (t=0) \\ \sum_{j}\alpha(j,t-1)・\alpha_{ji}・b_{ji}(y_t) & (t=1, 2,\cdots, T) \end{array} \right.$

(12)

これを計算し, 最後に以下を求めれば良い.

$\begin{displaymath} P(y｜M) = \sum_{i,q \in F}\alpha(i,T) \end{displaymath}$

(13)

Subsections

平成20年3月11日