next up previous
次へ: 自由発話の特徴 上へ: 自由発話音声における音響的な特徴の検討 戻る: 自由発話音声における音響的な特徴の検討

まえがき

近年、連続音声認識の研究が盛んに行なわれ、多くの研究機関で文音声音声システ ムが構築されている[1],[2],[3],[4]。 これらのシステムの多くは、朗読発話のような丁寧に発声された音声を入力対象に している。しかし、人間同士のコミュニケーションでは、「あのー」「えーと」な どの間投詞や、言い淀みや言い誤りおよび言い直しなどが頻繁に見受けられる。こ のような音声の認識が今後の重要な研究課題になると思われる。

この研究の第一歩として、本論文では視察によるラベリングをして自由発話の音声 データを調べた。自由発話の定義は研究者によって異なるが、ここでは話者がテキ ストを見ないで対話した音声を自由発話と見なした。そして自由発話と朗読発話の 差を見るために、間投詞と言い直しの出現頻度、発話速度、融合ラベルの付与率、 HMMによる認識精度などを調査した。ただし、調査した話者は4名のみであるため、 調査結果の値は一般性に欠ける可能性がある。

なお、自由発話の視察によるラベリングには多くの人手が必要であるため、このよ うな報告は少ない。文献[5]において、小林らは日本音響学会のデー タベース[6]を利用して、自由発話の文の中に出現するポーズの長さを 報告している。一方、音声を文字化するコストはラベリングのコストよりも少なく てすむため、間投詞や言い直しなどの言語現象を調べた論文は比較的多い。日本語 では、間投詞や言い直しの出現頻度を調べた報告 [7],[8],[9]や、助詞落ち・倒置の分析を行なった 報告[10]などがある。英語では自由発話のデータベースとして Air Travel Information Service (ATIS) がよく知られている。このデータベースを利 用して自由発話の特徴を報告し[11],[12]、従来の音声認識で使用さ れたアルゴリズムを用いて、認識率を報告した論文が多く見られる [13],[14]。



Jin'ichi Murakami 平成13年5月7日