next up previous
次へ: 実験方法 上へ: tecrep_h 戻る: はじめに


モーラ情報とピッチ情報

特定話者の単語の発声において、単語のモーラ数・モーラ位置が決まればピッチ 周波数が、ほぼ決まることが知られている[1]。 図[*]は[1]から引用したもので、 単一話者のナレータが発声した5モー ラ語の地名2,800件のピッチ周波数の平均値と分散を示している。 なお、このピッチ周波数の解析には、xwave+[5]を使用している。

図: 5モーラ語2,800件のピッチ周波数平均値と分散
\includegraphics[width=7cm]{test.eps}

この図より、 ピッチ周波数は単語に関係なく単語のモーラ数・モーラ位 置で決定できることがわかる。また、4、6モーラ語も同様の傾向を示し、分散も5 モーラ語と同程度であったと報告されている。

一方、ケプストラムはピッチ周波数によって影響を受けることが知られている。 このことから、単語のモーラ数・モーラ位置で分類して音素HMMの学習 を行うことで、ケプストラムにおけるピッチ周波数の影響を分離できると考えら れる。 その結果、音素HMMの精度が向上し、この音素HMMを使用して単語音声認識を行った場 合、認識の精度は向上すると推定できる。 なお本研究では、単語のモーラ数・モーラ位置をモーラ情報と定義する。



平成14年4月24日