単語のtrigramを用いた文認識システムの認識性能を把握するた めに認識実験を行なった。実験は特定話者認識および不特定話者認 識の2つの様式で行なった。HMMの学習データには、特定話者認識 の場合はテストデータと同一話者の2670単語発声を使用し、不特定 話者認識の場合は男性話者12名の736単語発声を利用した。テストデー タは国際会議の問い合わせの文(通称モデル会話)で、話者はナレー タである。その他の実験条件を表 3 に示す。なお、音声データの前後には約200msのポー ズが付加されている。実験文数は261文である。また、trigramの連 鎖確率値は、ATRの対話データベースのなかから国際会議の予約 に関するデータ約1万2千文章、約17万単語にテストデータのテキス トを加えて計算した。
| 基本アルゴリズム | Continuous mixture HMM |
| + Beam search + word trigram | |
| Mixture数 | 最大14(各音素によって変化) |
| 1音素あたりの状態数 | 4-state 3-loop left-right model |
| 使用パラメータ | LPC ケプストラム16次 + パワー |
| + |
|
| ウインド幅 | 20ms |
| フレーム周期 | 5ms |
| HMMの学習音声 | |
| (特定話者認識) | テストデータと同一話者の |
| 2670単語発声 | |
| (不特定話者認識) | 男性話者12名の736単語発声 |
| 音素カテゴリ数 | 52音素 |
| 認識単語数 | 1567 |
| ビーム幅 | 4096 |
| duration control | なし |
| 言語情報 | 単語のtrigram |
| 認識単位 | 文 |
| 実験文数 | 261文 |
| 発声様式 | 朗読発話 |
| 発声内容 | 国際会議の問い合わせ |
| (通称モデル会話) | |
| trigramの連鎖確率の | 約1万2千文章 |
| 推定に使用した | 171978単語 |
| テキストデータ量 |