音響尤度と言語の連鎖確率の結合値

言語情報として単語のtrigramを用いた場合、求める解は文候補

を以下のように定式化して、これを最大にする文（単語系列）

を選び出すことである。

ここで

は単語

の音響尤度、 $P(w_i\vert w_{i-2},w_{i-1})$ は単語 $w_{i-2}$ の次に単語 $w_{i-1}$ が現れたときに

に遷移する確率、 $\alpha$ は音響尤度と単語の尤度を結びつける結合定数である。

ここでは音響尤度と言語の連鎖確率の結合値 $\alpha$ を変化させたときの文認識率の変化を調べた。テストデータは朗読発話で語彙数は1500ビーム幅は4096 である。他の実験条件は表 1 と同一である。この結果を図 2 に示す。この図において横軸は結合値 $\alpha$ で、この値が大きいほど言語尤度が音響尤度と比較して増加する。縦軸は文認識率である。

**図 2:** 音響尤度と言語の連鎖確率の結合値を変えたときの認識性能の変化文認識率(%)
$\begin{figure}\begin{center} \fbox{\epsfile{file=FIGURE/weight.ps,width=60mm}}{Sentence recognition rate versus language weight} \end{center}\end{figure}$

この実験から音響尤度と言語の連鎖確率の結合値 $\alpha$ が16のとき最も高い文認識率が得られた。

ただし、個人的には音響尤度と言語の連鎖確率の結合値は1であると考えている。その根拠は以下の通りである。

単語のHMMと単語のbigramを考えて、これらを組み合わせたモデルは ErgodicHMMとなる。そして単語のbigram の値は１つの単語のHMMの最終状態の遷移確率を別の単語に接続されたときの値の分配率になる（図 3）。例えば Word_aのHMMの最終状態の状態遷移確率が0.5で、 Word_a からWord_aのbigramが0.4 Word_a からWord_bのbigramが0.6であったとする。このとき単語のHMMと単語のbigramを組み合わせたErgodicHMMにおいてWord_a からWord_aの状態遷移確率は $0.5 \times 0.4=0.2$ Word_a からWord_bの状態遷移確率は $0.5 \times 0.6=0.3$ が、もっとも妥当であると考えられる。

**図 3:** 音響尤度と言語の連鎖確率の結合値 $\alpha = 1$ の根拠
$\begin{figure}\fbox{\epsfile{file=FIGURE/weight1.ps,height= 40mm,width=70mm}}\end{figure}$