次へ: 調査に用いたデータベース 上へ: main1 戻る: main1

まえがき

近年、連続音声認識の研究が盛んに行なわれ、いくつかの研究機関で文音声システムが構築されている[1],[2]。しかし、これらのシステムの多くは、朗読音声のような丁寧に発声された音声を入力対象にしている。しかし、人間同士のコミュニケーションでは、「あのー」、「えーと」などに代表される冗長語や、言い淀みや言い誤りおよび言い直しなどが頻繁に見受けられる。このような音声でも認識が可能な、いわゆる自由発話の音声認識が、今後の重要な研究課題になると思われる。

現在、自由発話の認識に関する報告としては、日本では自由発話に対してスポッティングの方法を適用して認識率を報告した例がある [3]。また、海外では、自由発話のデータベースを作成して自由発話の特徴を報告し、従来の音声認識で使用されたアルゴリズムを利用して、認識率を報告した例がある [4],[5]。

ここでは、自由発話の音声認識の第一歩として、自由発話の音声の特徴を調べた。そこで自由発話と従来の朗読発話の差を見るために、まず発話速度と融合ラベルの付与率と従来の認識手段であるHMMの音素認識性能を調査した。本論文では、これらの結果について報告する。

Jin'ichi Murakami 平成13年10月5日