は、NTTの論文[1]から引用したもので、単一話者
が発声した5モーラ語2,800件のピッチ周波数平均値と分散を示している。
縦軸がピッチ周波数[Hz]、横軸が時間を表し、横軸はモーラ数で正規化してある。
表中の縦線がピッチ周波数の分散、記号◇はピッチ周波数の平均値を示す。
図
よりピッチ周波数の分散は、モーラ位置に対するピッチ周波数の変動に
比べて非常に小さく、ピッチ
周波数は、単語に関係なく単語のモーラ数、モーラ位置で表現できることがわか
る。
図
のモーラ数5の場合の各モーラ位置におけるピッチ周波数の分散を
表
に示す。
表
からモーラ位置1のときピッチ周波数は、250〜340Hz、
モーラ位置4のときピッチ周波数は、160〜210Hzというように
単語のモーラ数とモーラ位置が決まることでピッチ周波数がほぼ決まることがわ
かる。
4、6モーラ語も同様の傾向を示し、分散も5モーラ語 と同程度であったと報告されている。
このことから、母音と撥音の音素を 単語のモーラ数、モーラ位置を使い分類して 学習、単語音声認識を行うことで ケプストラムにおけるピッチ周波数の影響を分離できると考え、その結果 単語音声認識の認識率は向上すると推定される。