通常の速度で文節発声しているATRの単語発話データベースの中のDSBを用いて実験を行った.
使用した音節選択条件は下に示す.
・音節
・直前の音素(前音素環境)
・直後の音素(後音素環境)
・文節中のモーラ位置
・文節のモーラ数
・文節のアクセント位置
使用したデータベースは文を文節ごとに区切って発話されているが,区切る時間が短く,普通の発話に近い音声となっている. また,文が115文と少なかったため,作成できた12文節で評価を行った. 評価は8人の被験者について,了解度試験とオピニオン評価を行い,本研究と同様に評価対象の文節は自然音声の文の中に埋め込んで実験を行った. その結果を下に示す.
了解度 正解率(%) | オピニオンスコア | |||||
FTK | FYN | 平均 | FTK | FYN | 平均 | |
自然音声 | 96 | 99 | 98 | 4.5 | 4.7 | 4.6 |
合成音声 | 96 | 98 | 97 | 3.2 | 3.0 | 3.1 |
本研究で作成した合成音声の了解度は99.3,オピニオンスコアは3.83であり,この実験の音声は本研究で得られた音声に品質では及ばなかった. これは通常の発話速度で発話した音声では,文節間での区切りの時間が短いため,ピッチが初期化しきれず,アクセントのばらつきがあったためだと考えられる. したがって,今回のような波形選択を通常の発話速度の音声に適用することは困難だと考えている.