next up previous
次へ: 実験結果 上へ: trigram model を使用した文認識システムの実験 戻る: trigram model を使用した文認識システムの実験

実験条件

単語のtrigramを用いた文認識システムの認識性能を把握するた めに認識実験を行なった。実験は特定話者認識および不特定話者認 識の2つの様式で行なった。HMMの学習データには、特定話者認識 の場合はテストデータと同一話者の2670単語発声を使用し、不特定 話者認識の場合は男性話者12名の736単語発声を利用した。テストデー タは国際会議の問い合わせの文(通称モデル会話)で、話者はナレー タである。その他の実験条件を表 3 に示す。なお、音声データの前後には約200msのポー ズが付加されている。実験文数は261文である。また、trigramの連 鎖確率値は、ATRの対話データベースのなかから国際会議の予約 に関するデータ約1万2千文章、約17万単語にテストデータのテキス トを加えて計算した。



表 3: 文音声認識の実験条件
基本アルゴリズム Continuous mixture HMM
  + Beam search + word trigram
Mixture数 最大14(各音素によって変化)
1音素あたりの状態数 4-state 3-loop left-right model
使用パラメータ LPC ケプストラム16次 + パワー
  + $ \Delta $パワー+$ \Delta $ケプストラム16次
ウインド幅 20ms
フレーム周期 5ms
HMMの学習音声  
(特定話者認識) テストデータと同一話者の
  2670単語発声
(不特定話者認識) 男性話者12名の736単語発声
音素カテゴリ数 52音素
認識単語数 1567
ビーム幅 4096
duration control なし
言語情報 単語のtrigram
認識単位
実験文数 261文
発声様式 朗読発話
発声内容 国際会議の問い合わせ
  (通称モデル会話)
trigramの連鎖確率の 約1万2千文章
推定に使用した 171978単語
テキストデータ量  





Jin'ichi Murakami 平成13年10月4日