Next: 評価実験
Up: No Title
Previous: ATRデータベース
ピッチ情報とモーラ情報の関係
特定話者の単語の発声において、単語のモーラ位置、
モーラ数が決まればピッチ周波数がほぼ決まることが知られている
[1]。
図2は、NTTの論文[1]から引用したもので、単一話者
が発声した5モーラ語2,800件のピッチ周波数平均値と分散を示している。
縦軸がピッチ周波数[Hz]、横軸が時間を表し、横軸はモーラ数で正規化してある。
表中の縦線がピッチ周波数の分散、記号◇はピッチ周波数の平均値を示す。
この図よりピッチ周波数の分散は非常に小さく、ピッチ
周波数は、単語に関係なく単語のモーラ数、モーラ位置で表現できることがわか
る。
図2のモーラ数5の場合の各モーラ位置におけるピッチ周波数の分散を
表3に示す。
Figure 2:
5モーラ語2,800件のピッチ周波数平均値と分散
|
Table 3:
図1の各モーラ位置のピッチ周波数
モーラ位置 |
ピッチ周波数[Hz] |
1 |
250〜340 |
2 |
280〜340 |
3 |
210〜280 |
4 |
160〜210 |
5 |
80〜170 |
表3からモーラ位置1のときピッチ周波数は、250〜340Hz、
モーラ位置4のときピッチ周波数は、160〜210Hzというように
単語のモーラ数とモーラ位置が決まることでピッチ周波数がほぼ決まることがわ
かる。
4、6モーラ語も同様の傾向を示し、分散も5モーラ語
と同程度であったと報告されている。
このことから、母音の音素記号列を単語のモーラ数、モーラ位置を使い分類(ピッ
チ情報を併用して分類)して学習、音素ラベリングを行うことで音素境界位置の
精度は向上すると推定される。
本研究では、母音の前に単語のモーラ数、後にモーラ位置情報を付け加え
ることで母音を分類した。
母音の音素記号の変換例を図3に示す。
例1の音素記号列が「kimari」である場合、モーラ数は3なので母音の音素記号の前
方に3、母音の音素記号の
の後方にそれぞれのモーラ位置を付け加えることで母音を分類する。
変換後、2番目と6番目の音素記号iは、3i1と3i3という音素記号に置き換えられ、モーラ
位置が違うため異なる音素記号となる。
データベース話者Aの母音をモーラ情報を使い分類したところ、全音素記号は26
種類(表4)から71種類(表5)へと増え、母音の種類
は5種類(a、i、u、e、o)から45種類になった。
Table 4:
分類前の全音素記号
a |
i |
u |
e |
o |
b |
ch |
d |
g |
h |
j |
k |
m |
n |
ng |
p |
q |
r |
s |
sh |
t |
ts |
w |
z |
zh |
pau |
|
Table 5:
分類後の全音素記号
1a1 |
2a1 |
2a2 |
3a1 |
3a2 |
3a3 |
4a1 |
4a2 |
4a3 |
4a4 |
1i1 |
2i1 |
2i2 |
3i1 |
3i2 |
3i3 |
4i1 |
4i2 |
4i3 |
4i4 |
1u1 |
2u1 |
2u2 |
3u1 |
3u2 |
3u3 |
4u1 |
4u2 |
4u3 |
4u4 |
1e1 |
2e1 |
2e2 |
3e1 |
3e2 |
3e3 |
4e1 |
4e2 |
4e3 |
4e4 |
1o1 |
2o1 |
2o2 |
3o1 |
3o2 |
3o3 |
4o1 |
4o2 |
4o3 |
4o4 |
b |
ch |
d |
g |
h |
j |
k |
m |
n |
ng |
p |
q |
r |
s |
sh |
t |
ts |
w |
z |
zh |
pau |
|
|
|
|
|
|
|
|
|
Next: 評価実験
Up: No Title
Previous: ATRデータベース
maeta tomohiro
2000-03-16