実験は特定話者認識および不特定話者認識の2つの様式で行なった。単語の HMMは音素のHMMを連結して作成した。また音素のHMMの学習データには、特定 話者認識の場合はテストデータと同一話者の2620単語発声を使用し、不特定話 者認識の場合は評価話者とは別の男性話者12名の736単語発声を利用した。単 語のperplexityはtrigramで4.0、 bigramで13.9である。テストデータは、国 際会議の問い合わせのタスクの261 文で、話者はナレータ1名である。実験条 件を表 4.5 にまとめる。なお、テストデー タの先頭と最後には約200msのポーズ区間がある。また、 trigramの連鎖確率 値は、 ATRの対話データベース [10]のなかから国際会議の予約に関するデータ約1万2千文章、約17万 単語(3.3.1節参照)にテストデータのテキストを加えて計算した。 したがって認識実験は text-closedの実験になる。ただしテキストデータ中の「あ のー」、「えーと」などの間投詞は削除している。
音素モデル | Continuous mixture HMM, diagonal |
Mixture数 | 最大14(各音素によって変化) |
1音素あたりの状態数 | 4-state 3-loop left-right model |
使用パラメータ | LPC ケプストラム16次 + パワー |
+ パワー+ケプストラム16次 | |
ウインド幅 | 20ms |
フレーム周期 | 5ms |
HMMの学習音声 | |
(特定話者認識) | テストデータと同一話者の |
2,620単語発声 | |
(不特定話者認識) | 男性話者12名の736単語発声 |
音素カテゴリ数 | 52音素 |
認識単語数 | 1,567 |
ビーム幅 | 4,096 |
継続時間制御 | なし |
実験文数 | 261文,話者1名 |
発声様式 | 朗読発話(連続発声) |
発声内容 | 国際会議の問い合わせ |
単語trigramの値の | 約1万2千文章 171,978単語 |
推定に使用した | テストデータのテキストを含む |
テキストデータ量 | (間投詞は削除) |
単語trigramのperplexity | 4.0 |
単語bigramのperplexity | 13.9 |
フロアリングの値 | exp(-1000.0) |
言語尤度と音響尤度の | 1 |
結合値 |