next up previous contents
次へ: 認識実験 上へ: 実験結果 戻る: 実験結果   目次

位相をずらす実験

本実験では,入力した音声データに対して,窓かけをした後に,位相の標準化を 行った. この位相の標準化とは,パワーの最大値を周波数においての位相を0[rad]に近づ けることである.そこで,位相の標準化の具体的な例として,話者mauの音声デー タ「mau10002.16k」(aiの音声)を位相の標準化を行う.この時,初期位相をどの くらいずらすのかを計算したものを表2で示す.

2では,無音部分からではなく,有声部分の先頭を開始点と して,フレーム化処理を行っている.しかし,FFTをした後に位相の標準化をす るときは,無音部分から行う.「mau10002.16k」の有性部分は352.5(ms)が開始 点である(mau10002のラベルデータより).1ポイントにつき,0.0625(ms)であるから,352.5(ms)は,5641ポイント目に相当する.位相のフレームずらす際に、 表2においての1フレーム目の先頭のずらす点は「7」であるの で,ずらした後の有声部分の開始点は5634ポイント目となる.

しかし,認識するときは無音部分と有声部分をわけずに実験を行う.




表 2: 位相の標準化の実験結果(1フレーム目から20フレーム目)
フレーム 周波数 ピーク値(Power) 位相(rad/s) ずらす点
1 906.250 7808.282227 2.488025 7
2 906.250 33698.230469 1.849129 5
3 875.000 207082.359375 0.529958 2
4 906.250 383741.750000 -2.684118 -7
5 906.250 411181.343750 -2.771761 -7
6 937.500 441269.062500 -2.420625 -6
7 812.500 707995.437500 -0.223174 0
8 812.500 895858.750000 -0.903382 -2
9 812.500 1427840.000000 -1.804603 -5
10 812.500 1269471.750000 -2.609309 -7
11 812.500 374933.875000 2.987870 9
12 656.250 128432.468750 -1.641816 -5
13 531.250 135378.671875 0.545380 3
14 500.000 69620.562500 -2.028308 -9
15 250.000 65511.703125 -1.806563 -17




表 3: 位相の標準化の実験結果(16フレーム目から32フレーム目)
フレーム 周波数 ピーク値(Power) 位相(rad/s) ずらす点
16 250.000 81679.726562 0.987292 10
17 250.000 56897.648438 -1.894007 -18
18 218.750 51318.531250 0.265669 3
19 218.750 49875.636719 -1.230631 -13
21 218.750 21276.240234 -2.203962 -25
22 187.500 16606.263672 2.920523 40
23 187.500 10472.069336 -2.213172 -29
24 156.250 6964.058594 -2.378326 -38
25 156.250 3952.428711 -0.304996 -4
26 156.250 2161.698975 1.891219 31
27 156.250 1670.674561 -1.409364 -22
28 156.250 1905.446899 2.095201 34
29 156.250 1027.817261 -0.822841 -12
30 125.000 400.841736 0.711612 14
31 281.250 392.350342 0.529484 5
32 187.500 164.176025 -2.104321 -28


next up previous contents
次へ: 認識実験 上へ: 実験結果 戻る: 実験結果   目次
平成21年3月17日