ここでは、自由発話の認識にむけて、自由発話と朗読発話の差を音 響的な面と言語的な面に分けて調べた。音響的な差を見るために、 融合ラベルの付与率とHMMによる音素認識率、言語的な差を見るた めに冗長語および言い直しの出現頻度を調査した。この結果、朗読 音声と比較すると、自由発話の音声は、融合ラベルの付与率が約 1.4倍に増加すること、また音素認識誤り率が約2倍に増加するこ とがわかった。そして、冗長語や言い誤りを考慮していない従来の 文法の枠組は、最大でも自由発話全体の約5割しかカバーできない ことがわかった。
しかし、融合ラベルを除いた音素認識率は53%であり、著しく低い 値ではない。また、融合ラベルの増加の問題は、連結学習により解 消されることが期待できる。そして、冗長語を独立語として扱うこ とにより、従来の文法の枠組で自由発話全体の9割をカバーできる 可能性があることがわかった。したがって、言い直しの言語現象を 除くと、自由発話音声認識は、ある程度の実現可能性を持っている と言って良いように思われる。
言い直しの問題に対応するためには、認識アルゴリズムとしてスポッ ティングなどが考えられる。あるいは、より精密な文法を作成する ことによって、従来ATRで試みられてきているHMM-LR法も考えら れる。また、統計的な言語モデルで言い直しの現象を扱える可能性 もある。以上の長所や短所を考えながら、自由発話の音声認識シス テムを構築する必要があろう。
ただし、ここで扱った自由発話は、言葉の対応に慣れた人たちが限 定した条件の下で発話したデータであるため、これは clean な音 声と言うべきである。したがって、一般の話者が、雑音下で制約の 少ない状態で話した音声では、この論文で調査した音響的および言 語的特性とは若干異なる結果が得られる可能性もある。