next up previous contents
Next: 評価実験 Up: No Title Previous: ATRデータベース

  
ピッチ情報とモーラ情報の関係

特定話者の単語の発声において、単語のモーラ位置、 モーラ数が決まればピッチ周波数がほぼ決まることが知られている [1]。 図4は、NTTの論文[1]から引用したもので、単一話者 が発声した5モーラ語2,800件のピッチ周波数平均値と分散を示している。 縦軸がピッチ周波数[Hz]、横軸が時間を表し、横軸はモーラ数で正規化してある。 表中の縦線がピッチ周波数の分散、記号◇はピッチ周波数の平均値を示す。


  
Figure 4: 5モーラ語2,800件のピッチ周波数平均値と分散
8#8

4よりピッチ周波数の分散は、モーラ位置に対するピッチ周波数の変動に 比べて非常に小さく、ピッチ 周波数は、単語に関係なく単語のモーラ数、モーラ位置で表現できることがわか る。 図4のモーラ数5の場合の各モーラ位置におけるピッチ周波数の分散を 表6に示す。




 
Table 6:4の各モーラ位置のピッチ周波数
モーラ位置 ピッチ周波数[Hz]
1 250〜340
2 280〜340
3 210〜280
4 160〜210
5 80〜170
 

6からモーラ位置1のときピッチ周波数は、250〜340Hz、 モーラ位置4のときピッチ周波数は、160〜210Hzというように 単語のモーラ数とモーラ位置が決まることでピッチ周波数がほぼ決まることがわ かる。

4、6モーラ語も同様の傾向を示し、分散も5モーラ語 と同程度であったと報告されている。

このことから、母音と撥音の音素を 単語のモーラ数、モーラ位置を使い分類して 学習、単語音声認識を行うことで ケプストラムにおけるピッチ周波数の影響を分離できると考え、その結果 単語音声認識の認識率は向上すると推定される。





2001-06-12