next up previous contents
次へ: Viterbi サーチにおけるN-bestサーチ 上へ: アルゴリズムの改良 戻る: 音素HMM   目次

遅延言語処理

通常の認識アルゴリズムでは、各単語の先頭のグリッドは言語の遷移確率と接 続する前の単語の最終状態のグリッドからの音響尤度を足した尤度と自己ルー プの尤度を比較して計算する。この時言語の遷移確率を遅らせて計算する。

例 えば図2.8は、tree-trellisサーチにおいて単 語のbigramを使用したときの図である。この図では、語彙2単 語($w_a$$w_b$)で、連続3単語認識のときの gridを図示している。通常のアルゴリズムでは、 grid 2 では grid 1からの遷移に$ p(w_a \vert w_a) $の単語bigramの確率を、 grid 3 では grid 1からの遷移に$ p(w_b \vert w_a) $を、 grid 6 では grid 5からの遷移に$ p(w_a \vert w_a) $を、 grid 7 では grid 5からの遷移に$ p(w_b \vert w_a) $をかける。

図 2.8: 通常のtree-trellisサーチ
\begin{figure}\begin{center}
\fbox{\epsfile{file=FIGURE/normal-language-model.ps,width=115mm}}\end{center}\end{figure}

遅延言語処理は、言語モデルの確率を、単語認識した後に音響尤度とかける。 図2.9に、これを図示する。

図 2.9: 遅延言語処理したときのtree-trellisサーチ
\begin{figure}\begin{center}
\fbox{\epsfile{file=FIGURE/abnormal-language-model.ps,width=115mm}}\end{center}\end{figure}

図中、 grid 2 は grid 1からの遷移に $ p(w_a \vert start ) $の単語bigramの確率を、 grid 3 は grid 1からの遷移に $ p(w_a \vert start ) $を、 grid 6 は grid 5からの遷移に$ p(w_a \vert w_a) $を、 grid 7 は grid 5からの遷移に$ p(w_a \vert w_a) $をかける。

この方法は、音響モデルで単語が認識されてから言語モデルが駆動される形 で、言語モデルを1単語遅らせて計算するのと同等である。このた め計算量が削減される。ただし、認識率は低下する。

ただし、この方法は本論文では使用していない。



Jin'ichi Murakami 平成13年1月5日