次へ: 調査に用いたデータベース 上へ: main4 戻る: main4

まえがき

近年、連続音声認識の研究が盛んに行なわれ、いくつかの研究機関で連続音声システムが構築されている [1],[2]。しかし、これらのシステムの多くは、朗読音声のような丁寧に発声された音声を入力としている。

しかし、人間同士のコミュニケーションでは、「えーと」などに代表される冗長語や、言い淀みや言い誤りおよび言い直しなどが頻繁に見受けられる。このような音声でも認識が可能な、いわゆる自由発話の音声認識が、今後の重要な研究課題になると思われる。

現在、自由発話の認識に関する報告としては、日本では自由発話に対してスポッティングの方法を適用して認識率を報告した例がある [3]。また、海外では、自由発話のデータベースを作成して自由発話の特徴を報告し、従来の音声認識で使用されたアルゴリズムを利用して、認識率を報告した例がある[4],[5]。

ここでは、自由発話の音声認識の第一歩として、自由発話の音声の特徴を調べた。音声認識には音響的な面と言語的な面がある。そこで自由発話と従来の朗読発話の差を見るために、まず音響的な面から、融合ラベルの付与率とHMMによる音素認識率を調査し、次に言語的な面から、従来の朗読発声では出現しない冗長語と言い直しの出現頻度を調べた。本論文では、これらの結果について報告する。

以下の章は次のように構成される。第２章では、調査した自由発話のデータベースについて報告する。第３章では、自由発話の音声における融合ラベルの付与率およびHMMによる音素認識率について報告する。第４章では、自由発話における冗長語および言い直しの出現頻度について報告する。

Jin'ichi Murakami 平成13年10月5日