next up previous
Next: 自動ラベリング Up: 考察 Previous: 個人差

アクセントの有効性

3に,ATRの単語発話データベースAsetの,話者FTKの4モー ラ語普通名詞詞約1,700件のピッチ周波数の平均と分散を示す.図から,ピッ チ周波数の分散は小さく,モーラ位置が決まれば,ほぼピッチ周波数が決定で きることが分かる.また,図1と比較すると,4モーラ0 型に 良く似ていることがわかる.

Figure: モーラ情報とピッチ周波数の関係
\includegraphics[scale=0.5]{fig/ftk.eps}
4モーラ単語 約1,700件
 
Relationship between Mora and pitch

そこで,表1から音節素片が属する単語のアクセントを用いずに, 音節素片の前後環境・音節素片の単語中のモーラ位置・音節素片が属する単語 のモーラ数のみ利用して,普通名詞を合成した.その実験結果を表 7に示す.


Speech Synthesis without Accent
Table: アクセントを考慮しない合成音声
  了解度 正解率(%) オピニオンスコア
  評価音節数: 1,750 評価単語数: 100
  FTK FYN 平均 FTK FYN 平均
アクセント利用 99.4 99.7 99.6 4.2 4.4 4.3
アクセント未使用 99.4 99.7 99.6 3.8 4.1 4.0

この表から,アクセントを利用せずに音声合成をおこ なった場合と,アクセントを使用して音声合成をおこなった場合を比較すると, 了解度には差がないが,オピニオン評価において低下していることがわかる.

この理由として以下の理由を考えている.通常,普通名詞は,0型の名詞が多 い.そのため,多くの単語が0型として作成される.このときは自然性の高い 音声が作成される.しかし2型や3型の合成において,0型の名詞を使用して合 成した場合,自然性が低下する.[9].



Jin'ichi Murakami 2008-08-23