単語のtrigram modelを使用した文音声認識システム

言語情報として単語のtrigramを用いた場合の求める解は、文候補

を以下のように定式化して、これを最大にする文（単語列）

を選び出すことである。

$\sum \log (P_a(w_i)) + \alpha \times \sum \log(P(w_{i}\vert w_{i-2},w_{i-1})) \ \ \ 1)$

ここで

は単語

の音響尤度、 $P(w_i\vert w_{i-2},w_{i-1})$ は単語 $w_{i-2}$ の次に単語 $w_{i-1}$ が現れたときに

に遷移する確率、 $\alpha$ は音響尤度と単語の尤度を結びつける結合定数である。

従来、連続単語認識のためのアルゴリズムとして知られている Viterbiサーチ(one-pass DP)は各単語のHMMの最後の状態と単語の最初の状態の遷移においてtrigramの確率を掛けることによって 1)式を満たす最尤の単語列の候補を計算することができる。ただし、 trigramは２つ前の単語から現在の単語に遷移する確率値であるため、認識アルゴリズムでは、現在の単語と１つ前の単語の最大累積尤度を、つねに保持する必要がある。そのためbigramと比較すると、必要なメモリ量が大幅に増加する。認識単位を単語とした場合のアルゴリズムを表 2 に示す。

図 1 に、このアルゴリズムの簡略図を示す。この図では、認識語彙数を

と

の2単語で、単語の HMMは 4-state 3-loop で、状態は0から2までとする。縦軸はHMMの状態で、横軸は時間で、奥行きは語彙を示している。

図中○ 1から○ 7は表 1 に示される状態までの最大累積尤度であるとする。

単語の最初の状態以外は、前時刻の同一状態と前時刻の１つ前の最大累積尤度の２遷移のうち、最大累積尤度の高い方を選択する。例えば、○ 3は○ 1の遷移と○ 2から遷移の最大累積尤度の高い方を選択する。しかし、単語の最初の状態は、前時刻の最初の同一の最大累積尤度と各認識単語の最後の最大累積尤度に現在の単語に遷移するtrigramの連鎖確率値を掛けたものから遷移の最大累積尤度の高い方を選択する。例えば、○ 7は ○ 4にtrigramの値( $p(w_1\vert w_2,w_2) ^ \alpha$ ) を掛けたものと ○ 5にtrigramの値( $p(w_1\vert w_1,w_2) ^ \alpha$ )と○ 6の遷移の尤度の高い方を選択する。これを全状態に対して計算を行なう。

**図 1:** 単語のtrigramを用いたViterbiサーチの略図
$\begin{figure}\fbox{ \epsfile{file=figure1.eps,width=70mm}}\end{figure}$

**表 2:** 単語のtrigramを用いたViterbiサーチのアルゴリズム
［定義］
：単語における状態数
$a^w_{ij}$ ：単語における状態から状態への遷移確率
：単語の状態におけるベクトルの出力確率
$P(w_0\vert(w_2,w_1))$ 単語が出現したときに
に遷移する確率
：語彙数
：入力フレーム数
：フレームにおける観測ベクトル
：前単語,単語,状態での
フレームまでの最大累積尤度
$\alpha$ ：音響尤度と言語の連鎖確率の結合値
［初期化］
においてstep1を実行
1) $G_0(start,w_0,0) = P(w_0\vert start,start) ^ \alpha$
は文頭を意味
［ Viterbiサーチ］
においてstep2,step6を実行
2) においてstep3を実行
3) においてstep4を実行
4) $i=0,1,...,l_{w_0}-2$ においてstep5を実行
5)
$\max( G_{t-1}(w_1,w_0,i) \times a^{w_0}_{i,i} \times b^{w_0}_i(O_t),$
$G_{t-1}(w_1,w_0,i-1) \times a^{w_0}_{i-1,i} \times b^{w_0}_{i-1}(O_t))$
［単語境界の計算］
6) においてstep7を実行
7) においてstep8を実行
8) $\Delta = \mathop{\rm max}_{ 0\leq w_2 \leq Q-1 } ( G_{t-1}(w_2,w_1,l_{w_1}-2)$
$\times a^{w_1}_{l_{w_1}-2,l_{w_1}-1} \times b^{w_1}_{l_{w_1}-1}(O_t) \times P(w_0\vert w_2,w_1) ^ \alpha$
もし $\Delta \geq G_t(w_1,w_0,0)$ ならば $G_t(w_1,w_0,0)=\Delta$

番号	時間	前の単語	現在の単語	現在の状態
○ 1				0
○ 2				1
○ 3				1
○ 4				2
○ 5				2
○ 6				0
○ 7				0