言語情報として単語のtrigramを用いた場合、求める解は文候補
を以下のように定式化して、これを最大にする文(単語系
列)
を選び出すことである。
ここでは単語
の音響尤度、
は単語
の次に単語
が現れたときに
に遷移する確率、
は音響尤度と単語の尤度を結びつける結合定数である。
ここでは音響尤度と言語の連鎖確率の結合値を変化させたときの文認
識率の変化を調べた。テストデータは朗読発話で語彙数は1500ビーム幅は4096
である。他の実験条件は表 1 と同一であ
る。この結果を図 2 に示す。この図において横軸
は結合値
で、この値が大きいほど言語尤度が音響尤度と比較して増加
する。縦軸は文認識率である。
この実験から音響尤度と言語の連鎖確率の結合値が16のとき最も高い
文認識率が得られた。
ただし、個人的には音響尤度と言語の連鎖確率の結合値は1であると考えている。 その根拠は以下の通りである。
単語のHMMと単語のbigramを考えて、これらを組み合わせたモデルは
ErgodicHMMとなる。そして単語のbigram の値は1つの単語のHMMの最終状態の
遷移確率を別の単語に接続されたときの値の分配率になる(図
3)。例えば Word_aのHMMの最終状態の状態遷移確率が0.5で、
Word_a からWord_aのbigramが0.4 Word_a からWord_bのbigramが0.6であっ
たとする。このとき単語のHMMと単語のbigramを組み合わせたErgodicHMMにお
いてWord_a からWord_aの状態遷移確率は
Word_a
からWord_bの状態遷移確率は
が、もっとも妥当であ
ると考えられる。