遅延言語処理

次へ: Viterbi サーチにおけるN-bestサーチ 上へ: アルゴリズムの改良 戻る: 音素HMM 目次

遅延言語処理

通常の認識アルゴリズムでは、各単語の先頭のグリッドは言語の遷移確率と接続する前の単語の最終状態のグリッドからの音響尤度を足した尤度と自己ループの尤度を比較して計算する。この時言語の遷移確率を遅らせて計算する。

例えば図2.8は、tree-trellisサーチにおいて単語のbigramを使用したときの図である。この図では、語彙2単語（と）で、連続3単語認識のときの gridを図示している。通常のアルゴリズムでは、 grid 2 では grid 1からの遷移に $p(w_a \vert w_a)$ の単語bigramの確率を、 grid 3 では grid 1からの遷移に $p(w_b \vert w_a)$ を、 grid 6 では grid 5からの遷移に $p(w_a \vert w_a)$ を、 grid 7 では grid 5からの遷移に $p(w_b \vert w_a)$ をかける。

**図 2.8:** 通常のtree-trellisサーチ
$\begin{figure}\begin{center} \fbox{\epsfile{file=FIGURE/normal-language-model.ps,width=115mm}}\end{center}\end{figure}$

遅延言語処理は、言語モデルの確率を、単語認識した後に音響尤度とかける。図2.9に、これを図示する。

**図 2.9:** 遅延言語処理したときのtree-trellisサーチ
$\begin{figure}\begin{center} \fbox{\epsfile{file=FIGURE/abnormal-language-model.ps,width=115mm}}\end{center}\end{figure}$

図中、 grid 2 は grid 1からの遷移に $p(w_a \vert start )$ の単語bigramの確率を、 grid 3 は grid 1からの遷移に $p(w_a \vert start )$ を、 grid 6 は grid 5からの遷移に $p(w_a \vert w_a)$ を、 grid 7 は grid 5からの遷移に $p(w_a \vert w_a)$ をかける。

この方法は、音響モデルで単語が認識されてから言語モデルが駆動される形で、言語モデルを１単語遅らせて計算するのと同等である。このため計算量が削減される。ただし、認識率は低下する。

ただし、この方法は本論文では使用していない。

Jin'ichi Murakami 平成13年1月5日