自由発話の音響的な特徴の考察

次へ: まとめ 上へ: 自由発話の音響的な特徴 戻る: HMMによる音素認識率から見た自由発話の音声の崩れ

自由発話の音響的な特徴の考察

ここでは、自由発話と朗読発声の音響的な差を調べるために、主に発話速度および融合ラベルの付与率およびHMMにおける音素認識率について調査した。その結果、自由発話は文単位の朗読発声と比較すると、発話速度に大きな差がないが、融合ラベルの出現頻度は約２割近く増加し、音素認識誤り率は平均で約２倍に増加した。

一方、文節単位の朗読発声と文単位の朗読発声を比較すると、融合ラベルの出現頻度に大きな差はないが、融合ラベルを除いた音素認識誤り率は約２倍近くにまで増えた。このような認識誤りの比率は、文節単位の朗読発声と文単位の朗読発声の比率と同等程度であると見ることもできる。また、約40%という音素認識率は、見方によってはさほど低くないとも考えられる。したがって少なくとも音素モデルに関しては、自由発話音声認識と朗読認識において大きな差はないように思われる。

ただし、これらの値は話者によって差がある。特に文単位の朗読発声に対する自由発話の音素認識誤り率の増加率は、話者MTKとFKNでは大きな差がある。したがって自由発話は、話者によって認識率に大きな差があることが予想される。

また、自由発話には言語的には言い直しや言い淀みなどが存在する。この解決方法として、精密な文法を作成することによるHMM-LR法や、統計的な言語モデルや、認識アルゴリズムとしてスポッティングの採用も考えられるが、多くの問題点を含んでいると思われる。

Jin'ichi Murakami 平成13年10月5日