next up previous contents
次へ: 自由発話の言語的な特徴 上へ: 確率的言語モデルによる自由発話認識に関する研究 戻る: まとめ   目次


自由発話音声における音響的・言語的な特徴

近年、連続音声認識の研究が盛んに行なわれ、多くの研究機関で文音声音声シ ステムが構築されている [40],[58],[93],[69]。これらのシステ ムの多くは、朗読発話のような丁寧に発声された音声を入力対象にしている。 しかし、人間同士のコミュニケーションでは、「あのー」「えーと」などの間 投詞や、助詞落ち・言い淀み・言い誤り・言い直し・倒置などが頻繁に見受け られる。このような音声の認識が今後の重要な研究課題になると思われる。

この研究の第一歩として、本章では視察によるラベリングをして自由発話の音 声データを研究した結果について報告する。自由発話の定義は研究者によって異な るが、ここでは話者がテキストを見ないで対話した音声を自由発話と見なした。 そして自由発話と朗読発話の差を見るために、間投詞と言い直しの出現頻度、発話速 度、融合ラベルの付与率、HMMによる認識精度などを研究した。だたし、音響 的な傾向に関して調査した話者は4名のみである。

なお、自由発話の視察によるラベリング(音素のセグメンテーションと音素ラベルの 付与)には多くの人手が必要であるため、自由発話の音響的な特徴を報告した研究は少ない。文献 [34]において、小林らは日本音響学会のデータベース [24]を利用して、自由発話の文の中に出現するポーズの長さを報 告している。

一方、音声を文字化(発声内容を書きおこしたもの)するコスト はラベリングのコストよりも少なくてすむため、間投詞や言い直しなどの言語 現象を調べた論文は比較的多い。日本語では、間投詞や言い直しの出現頻度を 調べた報告 [50],[19],[5]や、助詞落ち・倒置の分析を行 なった報告[97]などがある。英語では自由発話のデータベースと して Air Travel Information Service (ATIS) がよく知られている。このデー タベースを利用して自由発話の特徴(ポーズの長さなど)が報告され [99],[100]、従来の音声認識で使用されたアルゴリズムを用 いて、認識率を報告した論文が多く見られる[89],[101]。



Subsections

Jin'ichi Murakami 平成13年1月5日