単語のtrigramを用いた文認識システムの認識性能を把握するた めに認識実験を行なった。実験は特定話者認識および不特定話者認 識の2つの様式で行なった。HMMの学習データには、特定話者認識 の場合はテストデータと同一話者の2670単語発声を使用し、不特定 話者認識の場合は男性話者12名の736単語発声を利用した。テストデー タは国際会議の問い合わせの文(通称モデル会話)で、話者はナレー タである。その他の実験条件を表 3 に示す。なお、音声データの前後には約200msのポー ズが付加されている。実験文数は261文である。また、trigramの連 鎖確率値は、ATRの対話データベースのなかから国際会議の予約 に関するデータ約1万2千文章、約17万単語にテストデータのテキス トを加えて計算した。
基本アルゴリズム | Continuous mixture HMM |
+ Beam search + word trigram | |
Mixture数 | 最大14(各音素によって変化) |
1音素あたりの状態数 | 4-state 3-loop left-right model |
使用パラメータ | LPC ケプストラム16次 + パワー |
+ パワー+ケプストラム16次 | |
ウインド幅 | 20ms |
フレーム周期 | 5ms |
HMMの学習音声 | |
(特定話者認識) | テストデータと同一話者の |
2670単語発声 | |
(不特定話者認識) | 男性話者12名の736単語発声 |
音素カテゴリ数 | 52音素 |
認識単語数 | 1567 |
ビーム幅 | 4096 |
duration control | なし |
言語情報 | 単語のtrigram |
認識単位 | 文 |
実験文数 | 261文 |
発声様式 | 朗読発話 |
発声内容 | 国際会議の問い合わせ |
(通称モデル会話) | |
trigramの連鎖確率の | 約1万2千文章 |
推定に使用した | 171978単語 |
テキストデータ量 |