next up previous contents
次へ: 評価実験 上へ: honron 戻る: ATRデータベース   目次


ピッチ情報とモーラ情報の関係

特定話者の単語の発声において、単語のモーラ位置、 モーラ数が決まればピッチ周波数がほぼ決まることが知られている [1]。 図[*]は、NTTの論文[1]から引用したもので、単一話者 が発声した5モーラ語2,800件のピッチ周波数平均値と分散を示している。 縦軸がピッチ周波数[Hz]、横軸が時間を表し、横軸はモーラ数で正規化してある。 表中の縦線がピッチ周波数の分散、記号◇はピッチ周波数の平均値を示す。

図: 5モーラ語2,800件のピッチ周波数平均値と分散
18#18

[*]よりピッチ周波数の分散は、モーラ位置に対するピッチ周波数の変動に 比べて非常に小さく、ピッチ 周波数は、単語に関係なく単語のモーラ数、モーラ位置で表現できることがわか る。 図[*]のモーラ数5の場合の各モーラ位置におけるピッチ周波数の分散を 表[*]に示す。




表:[*]の各モーラ位置のピッチ周波数
モーラ位置 ピッチ周波数[Hz]
1 250〜340
2 280〜340
3 210〜280
4 160〜210
5 80〜170

[*]からモーラ位置1のときピッチ周波数は、250〜340Hz、 モーラ位置4のときピッチ周波数は、160〜210Hzというように 単語のモーラ数とモーラ位置が決まることでピッチ周波数がほぼ決まることがわ かる。

4、6モーラ語も同様の傾向を示し、分散も5モーラ語 と同程度であったと報告されている。

このことから、母音と撥音の音素を 単語のモーラ数、モーラ位置を使い分類して 学習、単語音声認識を行うことで ケプストラムにおけるピッチ周波数の影響を分離できると考え、その結果 単語音声認識の認識率は向上すると推定される。




平成14年4月24日