next up previous
次へ: 調査に用いたデータベース 上へ: main4 戻る: main4

まえがき

近年、連続音声認識の研究が盛んに行なわれ、いくつかの研究機関 で連続音声システムが構築されている [1],[2]。しかし、これらのシステムの多くは、 朗読音声のような丁寧に発声された音声を入力としている。

しかし、人間同士のコミュニケーションでは、「えーと」などに代 表される冗長語や、言い淀みや言い誤りおよび言い直しなどが頻繁 に見受けられる。このような音声でも認識が可能な、いわゆる自由 発話の音声認識が、今後の重要な研究課題になると思われる。

現在、自由発話の認識に関する報告としては、日本では自由発話に 対してスポッティングの方法を適用して認識率を報告した例がある [3]。また、海外では、自由発話のデータベースを作成し て自由発話の特徴を報告し、従来の音声認識で使用されたアルゴリ ズムを利用して、認識率を報告した例がある[4],[5]。

ここでは、自由発話の音声認識の第一歩として、自由発話の音声の 特徴を調べた。音声認識には音響的な面と言語的な面がある。そこ で自由発話と従来の朗読発話の差を見るために、まず音響的な面か ら、融合ラベルの付与率とHMMによる音素認識率を調査し、次に言 語的な面から、従来の朗読発声では出現しない冗長語と言い直しの 出現頻度を調べた。本論文では、これらの結果について報告する。

以下の章は次のように構成される。第2章では、調査した自由発話 のデータベースについて報告する。第3章では、自由発話の音声に おける融合ラベルの付与率およびHMMによる音素認識率について報 告する。第4章では、自由発話における冗長語および言い直しの出 現頻度について報告する。



Jin'ichi Murakami 平成13年10月5日