next up previous contents
次へ: 音声におけるアクセント情報の持つ情報量の考察 上へ: 自由発話音声における音響的・言語的な特徴 戻る: 認識精度(phone accuracy)から見た自由発話   目次

まとめ

  1. 間投詞の出現頻度と種類に関して

    今回の研究では、話者によって相違があるが、間投詞が出現する文は文章全体の 40%から65%を占めることが示された。しかし、電話のような音声のみによる対話 では、間投詞は相手の注意を促す役割を持つ場合がある[19]。したがって話 し相手と対面して話す自由発話では、この出現頻度より低くなる可能性がある。

    なお、自由発話における間投詞(冗長語、不要語)の出現頻度は多くの研究期間で 報告されている。文献[34]や文献 [80]では日本音響学会連 続音声データベースの書き起こしテキストを研究して報告している。また、文献 [19]では、開始符合としての間投詞の種類と出現頻度を報告している。また、 文献[66] ではNHKラジオ第一放送の電話相談番組を書き起こして報告して いる。これらの論文と比較すると、間投詞の出現頻度はほぼ同じ割合と言える。ま た、間投詞の種類も、これらの報告と比較すると比率に違いがあるが、代表的な間 投詞に関してはほぼ同じ割合といえる。

  2. 自由発話における言い直しに関して

    今回の研究では、話者によって相違が見られるが、言い直しを含む文は文章全体の 2% から4%を占めることが示された。しかし、今回研究対象とした話者はナレータ (アナウンサや声優など音声を職業としている人)であるため、一般の人の言い直 しの出現頻度は、これよりも高いと思われる[50]。

    なお、文献[75] では言い直した単語に着目して、言い直しを分析して いる。これを見ると言い直しの59%は、言い誤った単語を直ちに言い直している。 また文献[62]においてもほぼ同様な結果が見られる。今回の自由発話 データの言い誤りを分析すると、単語にならない音節となっているものが39%、直 後に言い直しているのが 52%であり、傾向はほぼ同じであった。

  3. 自由発話と朗読発話の音響的な差

    本章では、自由発話の音響的な特徴を研究するために、主に融合ラベルの付与率、 発話速度、HMMにおける音素認識誤り率で朗読発話と比較した。その結果、自由発 話は朗読発話と比較すると、発話速度は最も差がある話者でも6%しか増加しない が、融合ラベルの出現頻度は約20%も増加する話者がいることが示された。しかし、 自由発話と朗読発話の認識精度 (phone accuracy)の差は7%から10%程度であるこ とが示された。したがって、少なくとも同一話者(特定話者)、同一発話様式で HMMを学習をする限り、音響モデルに関しては自由発話と朗読発話に大きな差はな いように思われる。

    ただし、本章で調査した話者は音声による対話に慣れた人である。したがって、 一般の話者が雑音下で制約の少ない状態で話した音声では、この論文で研究した結 果と異なる可能性がある。

  4. 自由発話の可能性について

    自由発話において特徴的な言語現象に、間投詞や言い直し・言い誤り・言い淀みな どがある。そして、今回の研究の結果、間投詞は発話全体の40%から65%の文に、 言い直しは約2%から4%の文に出現することが示された。自由発話の認識には、こ れらの言語現象の処理方法が大きな問題になると考えられる。

    現在自由発話の認識アルゴリズムとしては、これらの現象に対応するため、1)キー ワードスポッティングを利用する方法[87]、2)音素モデルにガーベージモ デルなどを使用して認識する方法[23][22]、3)言語モデルの一 部に音素系列として認識する方法[44],[34] もしくはこれ らの組合せの手法[89] などが試みられている。しかし、これらのアルゴリ ズムには挿入誤りが増加することや、広いビーム幅が要求されるなどの問題点が残っ ている。



Jin'ichi Murakami 平成13年1月5日