実験条件

単語のtrigramを用いた文認識システムの認識性能を把握するために認識実験を行なった。実験は特定話者認識および不特定話者認識の２つの様式で行なった。HMMの学習データには、特定話者認識の場合はテストデータと同一話者の2670単語発声を使用し、不特定話者認識の場合は男性話者12名の736単語発声を利用した。テストデータは国際会議の問い合わせの文（通称モデル会話）で、話者はナレータである。その他の実験条件を表 3 に示す。なお、音声データの前後には約200msのポーズが付加されている。実験文数は261文である。また、trigramの連鎖確率値は、ＡＴＲの対話データベースのなかから国際会議の予約に関するデータ約1万2千文章、約17万単語にテストデータのテキストを加えて計算した。

**表 3:** 文音声認識の実験条件
基本アルゴリズム	Continuous mixture HMM
	+ Beam search + word trigram
Mixture数	最大14（各音素によって変化）
1音素あたりの状態数	4-state 3-loop left-right model
使用パラメータ	LPC ケプストラム16次 + パワー
	+ $\Delta$ パワー+ $\Delta$ ケプストラム16次
ウインド幅	20ms
フレーム周期	5ms
HMMの学習音声
（特定話者認識）	テストデータと同一話者の
	2670単語発声
（不特定話者認識）	男性話者12名の736単語発声
音素カテゴリ数	52音素
認識単語数	1567
ビーム幅	4096
duration control	なし
言語情報	単語のtrigram
認識単位	文
実験文数	261文
発声様式	朗読発話
発声内容	国際会議の問い合わせ
	（通称モデル会話）
trigramの連鎖確率の	約1万2千文章
推定に使用した	171978単語
テキストデータ量