next up previous
次へ: 自由発話の音声データ 上へ: 自由発話認識 戻る: 自由発話認識

自由発話認識の実験条件

上記で提案したアルゴリズムの有効性を調べるために、自由発話の文認識実験 をおこなった。実験には、音響モデルには不特定話者のHMM、言語モデルには 単語のtrigramを使用した。実験条件を表  1 に示す。garbageモデルは、4状態3ループの10混合のモデルで、 男性話者12 名の音素バランス216 単語から作成した。単語のtrigramの連鎖確 率値は、 ATRの対話データベース[17]のなかから国際会議の予約に関 するデータ約1万2千文章、約17万単語にテストデータの中の朗読発話のテキス ト(次節参照)を加えて計算した。ただしテキストデータ中の「あのー」、 「えーと」などの間投詞は削除している。また、音素のtrigram の連鎖確率値 は「あのー」、「えーと」などの間投詞を含めて同一のATRの国際会議の予約 のデータベースから作成した。


表 1: 自由発話認識の実験条件
音素モデル 4-state 3-loop
(garbage model を含む) 10mixture left-right model
HMMの学習データ 男性話者12名の736単語発声
garbageモデル 男性話者12名の
の学習データ 音韻バランス216単語
認識単語数 435
ビーム幅 16,384
単語trigramの値の 約1万2千文章 約170000単語
推定に使用した 朗読発話のテキストを含む
テキストデータ量 (間投詞は削除)
音素trigramの値の 約1万2千文章 約170000単語
推定に使用した 朗読発話のテキストを含む
テキストデータ量 (間投詞を含む)
言語尤度と音響尤度の 16
結合値 $\alpha $ (考察参照)  



Jin'ichi Murakami 平成13年10月2日