next up previous contents
次へ: 実験結果 上へ: 連続音声認識への適用 戻る: 連続音声認識への適用   目次


実験条件

連続音声認識の基本アルゴリズムとして one-pass DP (2.2.2節参照)を 用い、音響尤度の計算には音素モデルHMMを用いた。これに言語モデルとして odd4000で学習した状態数2,4,8のErgodic HMMを使用した。その他の実験条件を 表 9.19 に示す。テストデータとして、学習データ odd4000とタスクが同じ38文(学習データに含まれない文)を用いた。テストデー タを図9.15に示す。

同一のテストデータを使ってtext-open data,text-closed data両方の文認識 を行なうために、odd4000で学習したパラメータを初期値として、odd4000にテ ストデータ38文を加えた4038文を学習させたErgodic HMMを新規に作成し、 text-closed dataにおける文認識のための言語モデルとして使用した。4038文 で学習させた時の学習条件は、パラメータの初期値以外はodd4000で学習させ た時と同じである。

単語間の接続部分で、対数音響尤度の値にErgodic HMMからViterbi アルゴリズム で計算された単語間接続確率の対数値を加えた。この際、Ergodic HMMから得 られる値に

\begin{displaymath}\mbox{対数音響尤度}:\mbox{対数単語間接続確率} = 1:16\end{displaymath}

(言 語尤度と音響尤度の結合値 $\alpha = 16 $)の比率で重みをつけた。また、認 識時の計算量を削減するためビーム幅4096でビームサーチを行なった。


表 9.19: 連続音声認識実験の条件
音素モデル数 52音素
音素音響モデル 4状態3ループ対角混合分布型HMM
  混合数は音素ごとに異なる。
  継続時間長制御なし。
話者 男性アナウンサー1名(MAU)
音響パラメータ log パワー + 16次LPCケプストラム
  $ + \Delta $log パワー + 16次LPC$\Delta$ケプストラム
音響分析条件 サンプリング周期 12kHz
  フレーム窓長 20ms
  フレーム周期 5ms
ビーム幅 4096
認識語彙数 435単語
テストデータ 同一話者発声(MAU)
  38文

図 9.15: テスト文
\fbox
{
\begin{minipage}{14cm}
もしもし。 \\
はい。 \\
会議事務局でございます..
...ました。 \\
どうもありがとうございました。 \\
失礼します。 \\
\end{minipage}}



Jin'ichi Murakami 平成13年1月5日