図3に,ATRの単語発話データベースAsetの,話者FTKの4モー ラ語普通名詞詞約1,700件のピッチ周波数の平均と分散を示す.図から,ピッ チ周波数の分散は小さく,モーラ位置が決まれば,ほぼピッチ周波数が決定で きることが分かる.また,図1と比較すると,4モーラ0 型に 良く似ていることがわかる.
そこで,表1から音節素片が属する単語のアクセントを用いずに, 音節素片の前後環境・音節素片の単語中のモーラ位置・音節素片が属する単語 のモーラ数のみ利用して,普通名詞を合成した.その実験結果を表 7に示す.
了解度 正解率(%) | オピニオンスコア | |||||
評価音節数: 1,750 | 評価単語数: 100 | |||||
FTK | FYN | 平均 | FTK | FYN | 平均 | |
アクセント利用 | 99.4 | 99.7 | 99.6 | 4.2 | 4.4 | 4.3 |
アクセント未使用 | 99.4 | 99.7 | 99.6 | 3.8 | 4.1 | 4.0 |
この表から,アクセントを利用せずに音声合成をおこ なった場合と,アクセントを使用して音声合成をおこなった場合を比較すると, 了解度には差がないが,オピニオン評価において低下していることがわかる.
この理由として以下の理由を考えている.通常,普通名詞は,0型の名詞が多 い.そのため,多くの単語が0型として作成される.このときは自然性の高い 音声が作成される.しかし2型や3型の合成において,0型の名詞を使用して合 成した場合,自然性が低下する.[9].