next up previous contents
次へ: Viterbiアルゴリズム 上へ: HMMによる音声認識 戻る: HMM法の利点と問題点   目次

認識アルゴリズム

$y = {y_1, y_2, ・・・, y_T}$を観測(出力)系列とする.具体的には,スペクトルや ケプストラムの時系列である.このとき,各HMMモデルによってyが生起する確率 (尤度)P(y|M)(MはHMMによって表現される単語や音素に対応)を求め,最大確率 (最大尤度)を与えるモデルを選出しこれを認識結果とする.図2に単語HMMを用いた認識方法を示す.

図 2: 単語HMMを用いた単語音声認識の方法
\includegraphics{rec_arg.eps}

$q = {q_{i0}, q_{i1}, ・・・, q_{iT}}$を状態遷移行列(ただし$q_{iT}
\in F)$とすれば,

\begin{displaymath}
P(y|M) = \sum_{i_0, i_1, …, i_T}P(y|q, M)・P(q|M)
\end{displaymath} (23)

と表すことができる.そして一般的に$P(y|M)$の値は,トレリスアルゴリズムで求め られる.

フォワード変数$α(i, t)$を定義し,符号ベクトル$y_t$を出力して状態$q_t$に ある確率とすれば, $i = 1, 2, ・・・, S$とおいて,以下の式を得る.


\begin{displaymath}
α(i, t) = \sum_{j}α(j, t-1)・α_{ji}・b_{ji}(y_t)(t-1, 2, ・・・, T)・π_i(t=0)
\end{displaymath} (24)

これを計算し,最後に以下を求めれば良い.
\begin{displaymath}
P(y|M) = \sum_{i,q \in F}α(i,T)
\end{displaymath} (25)



Subsections

平成19年5月7日