next up previous
次へ: 単語のtrigramの連鎖確率値の平滑化に関して 上へ: 考察 戻る: フルサーチとOne-passサーチの比較

音響尤度と言語の連鎖確率の結合値$\alpha $

言語情報として単語のtrigramを用いた場合、求める解は文候補 $
l(w_1,w_2,..,w_N)$を以下のように定式化して、これを最大にする文(単語系 列) $ w_1,w_2,...,w_N$ を選び出すことである。

$ \sum \log (P_a(w_i)) + \alpha \times \sum
\log(P(w_{i}\vert w_{i-2},w_{i-1})) $

ここで$P_a(w_i)$は単語$w_i$の音響尤度、 $P(w_i\vert w_{i-2},w_{i-1})$は単語 $w_{i-2}$の次に単語$w_{i-1}$が現れたときに$w_i$に遷移する確率、$\alpha $は音響尤度と単語の尤度を結びつける結合定数である。

ここでは音響尤度と言語の連鎖確率の結合値$\alpha $を変化させたときの文認 識率の変化を調べた。テストデータは朗読発話で語彙数は1500ビーム幅は4096 である。他の実験条件は表 1  と同一であ る。この結果を図 2 に示す。この図において横軸 は結合値$\alpha $で、この値が大きいほど言語尤度が音響尤度と比較して増加 する。縦軸は文認識率である。


図 2: 音響尤度と言語の連鎖確率の結合値を変えたときの認識 性能の変化 文認識率(%)
\begin{figure}\begin{center}
\fbox{\epsfile{file=FIGURE/weight.ps,width=60mm}}{Sentence recognition rate versus language weight}
\end{center}\end{figure}

この実験から音響尤度と言語の連鎖確率の結合値$\alpha $が16のとき最も高い 文認識率が得られた。

ただし、個人的には音響尤度と言語の連鎖確率の結合値は1であると考えている。 その根拠は以下の通りである。

単語のHMMと単語のbigramを考えて、これらを組み合わせたモデルは ErgodicHMMとなる。そして単語のbigram の値は1つの単語のHMMの最終状態の 遷移確率を別の単語に接続されたときの値の分配率になる(図 3)。例えば Word_aのHMMの最終状態の状態遷移確率が0.5で、 Word_a からWord_aのbigramが0.4 Word_a からWord_bのbigramが0.6であっ たとする。このとき単語のHMMと単語のbigramを組み合わせたErgodicHMMにお いてWord_a からWord_aの状態遷移確率は $ 0.5 \times 0.4=0.2 $ Word_a からWord_bの状態遷移確率は $ 0.5 \times 0.6=0.3 $が、もっとも妥当であ ると考えられる。

図 3: 音響尤度と言語の連鎖確率の結合値 $\alpha = 1 $ の根拠
\begin{figure}\fbox{\epsfile{file=FIGURE/weight1.ps,height= 40mm,width=70mm}}\end{figure}



Jin'ichi Murakami 平成13年10月2日