next up previous contents
次へ: 実験結果 上へ: 単語のtrigramモデルを用いた文音声認識実験 戻る: 認識アルゴリズム   目次


実験条件

実験は特定話者認識および不特定話者認識の2つの様式で行なった。単語の HMMは音素のHMMを連結して作成した。また音素のHMMの学習データには、特定 話者認識の場合はテストデータと同一話者の2620単語発声を使用し、不特定話 者認識の場合は評価話者とは別の男性話者12名の736単語発声を利用した。単 語のperplexityはtrigramで4.0、 bigramで13.9である。テストデータは、国 際会議の問い合わせのタスクの261 文で、話者はナレータ1名である。実験条 件を表 4.5 にまとめる。なお、テストデー タの先頭と最後には約200msのポーズ区間がある。また、 trigramの連鎖確率 値は、 ATRの対話データベース [10]のなかから国際会議の予約に関するデータ約1万2千文章、約17万 単語(3.3.1節参照)にテストデータのテキストを加えて計算した。 したがって認識実験は text-closedの実験になる。ただしテキストデータ中の「あ のー」、「えーと」などの間投詞は削除している。


表 4.5: 文音声認識の実験条件
音素モデル Continuous mixture HMM, diagonal
Mixture数 最大14(各音素によって変化)
1音素あたりの状態数 4-state 3-loop left-right model
使用パラメータ LPC ケプストラム16次 + パワー
  + $\Delta$パワー+$\Delta$ケプストラム16次
ウインド幅 20ms
フレーム周期 5ms
HMMの学習音声  
(特定話者認識) テストデータと同一話者の
  2,620単語発声
(不特定話者認識) 男性話者12名の736単語発声
音素カテゴリ数 52音素
認識単語数 1,567
ビーム幅 4,096
継続時間制御 なし
実験文数 261文,話者1名
発声様式 朗読発話(連続発声)
発声内容 国際会議の問い合わせ
単語trigramの値の 約1万2千文章 171,978単語
推定に使用した テストデータのテキストを含む
テキストデータ量 (間投詞は削除)
単語trigramのperplexity 4.0
単語bigramのperplexity 13.9
フロアリングの値 exp(-1000.0)
言語尤度と音響尤度の 1
結合値 $\alpha $  



Jin'ichi Murakami 平成13年1月5日