近年、連続音声認識の研究が盛んに行なわれ、いくつかの研究機関 で文音声システムが構築されている[1],[2]。し かし、これらのシステムの多くは、朗読音声のような丁寧に発声さ れた音声を入力対象にしている。しかし、人間同士のコミュニケー ションでは、「あのー」、「えーと」などに代表される冗長語や、 言い淀みや言い誤りおよび言い直しなどが頻繁に見受けられる。こ のような音声でも認識が可能な、いわゆる自由発話の音声認識が、 今後の重要な研究課題になると思われる。
現在、自由発話の認識に関する報告としては、日本では自由発話に 対してスポッティングの方法を適用して認識率を報告した例がある [3]。また、海外では、自由発話のデータベースを作成し て自由発話の特徴を報告し、従来の音声認識で使用されたアルゴリ ズムを利用して、認識率を報告した例がある [4],[5]。
ここでは、自由発話の音声認識の第一歩として、自由発話の音声の 特徴を調べた。そこで自由発話と従来の朗読発話の差を見るために、 まず発話速度と融合ラベルの付与率と従来の認識手段であるHMMの 音素認識性能を調査した。本論文では、これらの結果について報告 する。