Next: 評価実験
Up: No Title
Previous: ATRデータベース
ピッチ情報とモーラ情報の関係
特定話者の単語の発声において、単語のモーラ位置、
モーラ数が決まればピッチ周波数がほぼ決まることが知られている
[1]。
図4は、NTTの論文[1]から引用したもので、単一話者
が発声した5モーラ語2,800件のピッチ周波数平均値と分散を示している。
縦軸がピッチ周波数[Hz]、横軸が時間を表し、横軸はモーラ数で正規化してある。
表中の縦線がピッチ周波数の分散、記号◇はピッチ周波数の平均値を示す。
Figure 4:
5モーラ語2,800件のピッチ周波数平均値と分散
8#8 |
図4よりピッチ周波数の分散は、モーラ位置に対するピッチ周波数の変動に
比べて非常に小さく、ピッチ
周波数は、単語に関係なく単語のモーラ数、モーラ位置で表現できることがわか
る。
図4のモーラ数5の場合の各モーラ位置におけるピッチ周波数の分散を
表6に示す。
Table 6:
図4の各モーラ位置のピッチ周波数
モーラ位置 |
ピッチ周波数[Hz] |
1 |
250〜340 |
2 |
280〜340 |
3 |
210〜280 |
4 |
160〜210 |
5 |
80〜170 |
表6からモーラ位置1のときピッチ周波数は、250〜340Hz、
モーラ位置4のときピッチ周波数は、160〜210Hzというように
単語のモーラ数とモーラ位置が決まることでピッチ周波数がほぼ決まることがわ
かる。
4、6モーラ語も同様の傾向を示し、分散も5モーラ語
と同程度であったと報告されている。
このことから、母音と撥音の音素を
単語のモーラ数、モーラ位置を使い分類して
学習、単語音声認識を行うことで
ケプストラムにおけるピッチ周波数の影響を分離できると考え、その結果
単語音声認識の認識率は向上すると推定される。
2001-06-12