next up previous contents
次へ: 自由発話の音声データ 上へ: 自由発話の音声認識 戻る: 音素スキップ (言語モデルによる対策)   目次


自由発話の文認識実験条件

認識実験は、音響モデルには不特定話者のHMM、言語モデルには単語のtrigram を使用して行なった。実験条件は表  4.5 とほぼ同じであるが、語彙数やビーム幅 などは異る。garbageモデルは、4状態3ループの10混合のモデルで、男性話者 12 名の音素バランス216 単語から作成した。音素のtrigram の連鎖確率値は 「あのー」、「えーと」などの間投詞を含めて国際会議の予約に関するデータ 約1 万 2千文章、約17万単語から作成した。実験条件を表  5.1  に示す。また全ての実験において  4.3.2.1 節および  4.3.2.2 節で報告したポーズの処理を行なっている。


表 5.1: 文音声認識の実験条件
HMMの学習音声 男性話者12名の736単語発声
garbageモデルの学習音声 男性話者12名の音韻バランス216単語
garbageモデル 4-state 3-loop 10 mixture left-right model
音素の数 26
認識単語数 435
ビーム幅 16,384
単語trigramの値の 約1万2千文章 171,978単語
推定に使用した テストデータのテキストを含む
テキストデータ量 (間投詞は削除)
音素trigramの値の 約1万2千文章 171,978単語
推定に使用した テストデータのテキストを含む
テキストデータ量 (間投詞を含む)
言語尤度と音響尤度の 16
結合値 $\alpha $  
テスト文 261 文



Subsections

Jin'ichi Murakami 平成13年1月5日