この節では,通常の発話速度における音節波形接続型音声合成の文節への適用 を試みる.用いるデータベースはATRのAsetの中のDSBである.このデータベー スは文を文節ごとに区切って発話されているが,区切る時間が短く,普通の発 話に近い.また,収録されているデータ量が115文と少ないため,作成できた 文節音声は12文節であった.合成方法は,従来法(3.章)であ る.作成した合成音声の評価のために,8人の被験者について,了解度試験と オピニオン評価を行った.他の条件は,3.章と同じである.
評価の結果を表13に示す.この表から,得られた合成音声 は了解度,オピニオンスコアとも3.章で得られた音声に品質で は及ばないことがわかる.
この原因として,通常の発話速度で発話した音声では,文節間での区切りの時 間が短いため,ピッチが初期化しないために,が複雑になったためと考 えている.したがって,音節波形接続型音声合成方法を通常の発話速度の音声 に適用することは困難だと考えている.
了解度 正解率(%) | オピニオンスコア | |||||
FTK | FYN | 平均 | FTK | FYN | 平均 | |
自然音声 | 96 | 99 | 98 | 4.5 | 4.7 | 4.6 |
合成音声 | 96 | 98 | 97 | 3.2 | 3.0 | 3.1 |