単語のbigramを用いた文節音声認識アルゴリズム

実験に用いた認識アルゴリズムの基本は、単語のHMMにViterbiサーチ(one-pass DP)に単語のbigramとした。これの認識アルゴリズムを表3に示す。

ただし、実験ではHMMの状態

を複数(

個)持たせることによって複数の候補を出力するN-bestサーチを行なった。また、計算量およびメモリー量を減らすために次のような方法を使用した。

Viterbiサーチの経路計算

one-pass DPでは最尤度のワード列を知るために、計算の途中において選択した経路を残す必要がある。このために［語彙数 $\times$ HMM の状態数 $\times$ 最大認識時間のフレーム長］のメモリー空間が必要である。しかし、どの経路を選択したかを最大シンボル出力確率とともに、次の状態に渡すことによって［語彙数 $\times$ HMMの状態数 $\times$ 文を構成する最大単語数］のメモリー空間で計算可能である。後者を選択したとき計算時間は少し増加するが、一般的には文を構成する最大単語数は最大認識時間のフレーム長より小さいため、メモリー量を削減できる。

**表 3:** 単語のbigramを利用したViterbiサーチアルゴリズム（one-pass DP）
[定義]
：単語のHMMの状態数
$a^w_{i,j}$ ：単語のHMMにおける状態から状態への遷移確率
$b^w_{i,j}(v)$ ：単語の状態から状態における
ベクトルの出力確率
：単語が出現したときに
に遷移する確率 $P(w_0\vert w_1)$
：語彙数
：入力フレーム数
:最大連続単語認識数
：フレームtにおける観測ベクトル
：レベル,単語,状態での先頭から
フレームまでの経路のHMMの最大シンボル出力確率
［初期化］
1) においてstep2を実行
2) $G{_0}(0,w_0,i) = Bi(start,w_0)$
は文頭を意味
[Viterbiサーチ]
3) においてstep4を実行
4) においてstep5,step8を実行
5) においてstep6を実行
6) $i=0,1,...,sn_{w_0}-2$ においてstep7を実行
7) $\max( G_{t-1}(l,w_0,i) \times a^{w_0}_{i,i} \times b^{w_0}_{i,i}(O_t),$
$G_{t-1}(l,w_0,i-1) \times a^{w_0}_{i-1,i} \times b^{w_0}_{i-1,i}(O_t) )$
［単語境界の計算］
8) においてstep9を実行
9) $\Delta = \mathop{\rm max}_{ 0\leq w_1 \leq Q-1 } ( G_{t-1}(l-1,w_1,sn_{w_1}-2)$
$\times a^{w_1}_{sn_{w_1}-2,sn_{w_1}-1} \times b^{w_1}_{sn_{w_1}-2,sn_{w_1}-1}(O_t) \times Bi(w_1,w_0))$
もし $\Delta \geq G_t(l,w_0,0)$ ならば $G_t(l,w_0,0)=\Delta$

単語bigramの値の記憶

単語のbigramの値を記憶しておくには［語彙数 $^{2}$ ］のメモリー空間が必要である。しかし、テキストデータ中に存在するbigramの組み合わせの値をリスト形式で記憶することにより、メモリーを節約できる。

one-pass DPにおける単語境界での計算

Viterbiサーチでは各フレームごとに、単語境界の計算をするために、全ての前の単語の最終状態の値に前の単語から現在の単語に遷移するbigramの値を加算してから最大値を選択する（表 3 step9）。しかしbigram の値はリスト形式で記憶されているため、bigramの値を得るために計算コストがかかる。そこで、このコストを減らすために、全ての前の単語の最終状態の値で最大値を選択してからbigramの値を加算して最大値を選択した。このアルゴリズムを次に示す。

9) $\Delta = \mathop{\rm max}_{ 0\leq w_1 \leq Q-1 } ( G_{t-1}(l-1,w_1,sn_{w_1}-2)$
$\times a^{w_1}_{sn_{w_1}-2,sn_{w_1}-1} \times b^{w_1}_{sn_{w_1}-2,sn_{w_1}-1}(O_t))$

もし $\Delta \times Bi(w_1,w_0)) \geq G_t(l,w_0,0)$ ならば
$G_t(l,w_0,0)= \Delta \times Bi(w_1,w_0))$

このアルゴリズムを選択した場合bigramの値をアクセスする回数が減らせるため、全体の計算コストが減少する。ただし、得られる尤度は近似解になる。

実験条件

上へ:

単語のHMMとbigramを利用した文節音声認識

戻る:

言語モデル

Jin'ichi Murakami 平成13年10月5日