次へ: 謝辞 上へ: main4 戻る: 自由発話の言語的な特徴の考察

まとめ

ここでは、自由発話の認識にむけて、自由発話と朗読発話の差を音響的な面と言語的な面に分けて調べた。音響的な差を見るために、融合ラベルの付与率とHMMによる音素認識率、言語的な差を見るために冗長語および言い直しの出現頻度を調査した。この結果、朗読音声と比較すると、自由発話の音声は、融合ラベルの付与率が約 1.4倍に増加すること、また音素認識誤り率が約２倍に増加することがわかった。そして、冗長語や言い誤りを考慮していない従来の文法の枠組は、最大でも自由発話全体の約5割しかカバーできないことがわかった。

しかし、融合ラベルを除いた音素認識率は53%であり、著しく低い値ではない。また、融合ラベルの増加の問題は、連結学習により解消されることが期待できる。そして、冗長語を独立語として扱うことにより、従来の文法の枠組で自由発話全体の９割をカバーできる可能性があることがわかった。したがって、言い直しの言語現象を除くと、自由発話音声認識は、ある程度の実現可能性を持っていると言って良いように思われる。

言い直しの問題に対応するためには、認識アルゴリズムとしてスポッティングなどが考えられる。あるいは、より精密な文法を作成することによって、従来ＡＴＲで試みられてきているHMM-LR法も考えられる。また、統計的な言語モデルで言い直しの現象を扱える可能性もある。以上の長所や短所を考えながら、自由発話の音声認識システムを構築する必要があろう。

ただし、ここで扱った自由発話は、言葉の対応に慣れた人たちが限定した条件の下で発話したデータであるため、これは clean な音声と言うべきである。したがって、一般の話者が、雑音下で制約の少ない状態で話した音声では、この論文で調査した音響的および言語的特性とは若干異なる結果が得られる可能性もある。

Jin'ichi Murakami 平成13年10月5日