認識実験は、音響モデルには不特定話者のHMM、言語モデルには単語のtrigram を使用して行なった。実験条件は表 4.5 とほぼ同じであるが、語彙数やビーム幅 などは異る。garbageモデルは、4状態3ループの10混合のモデルで、男性話者 12 名の音素バランス216 単語から作成した。音素のtrigram の連鎖確率値は 「あのー」、「えーと」などの間投詞を含めて国際会議の予約に関するデータ 約1 万 2千文章、約17万単語から作成した。実験条件を表 5.1 に示す。また全ての実験において 4.3.2.1 節および 4.3.2.2 節で報告したポーズの処理を行なっている。
| HMMの学習音声 | 男性話者12名の736単語発声 |
| garbageモデルの学習音声 | 男性話者12名の音韻バランス216単語 |
| garbageモデル | 4-state 3-loop 10 mixture left-right model |
| 音素の数 | 26 |
| 認識単語数 | 435 |
| ビーム幅 | 16,384 |
| 単語trigramの値の | 約1万2千文章 171,978単語 |
| 推定に使用した | テストデータのテキストを含む |
| テキストデータ量 | (間投詞は削除) |
| 音素trigramの値の | 約1万2千文章 171,978単語 |
| 推定に使用した | テストデータのテキストを含む |
| テキストデータ量 | (間投詞を含む) |
| 言語尤度と音響尤度の | 16 |
| 結合値 |
|
| テスト文 | 261 文 |