過去の研究[1]より,波形接続型音声合成の有用性が示されたが 波形接続型音声合成では音節素片選択の条件が厳しいために作成できる音声が少 ないという問題がある,音声データベースとして,ATR単語発話データベース Aset(5240単語)を使用した場合,5240単語中の470単語しか作成できない[1].
そこで任意の音声を合成可能にするために,収録されている録音音声に対して木 に基づくクラスタリング [2]を行い,音響パラメータが似た音節素片 をグループ化する.そのグループ化された情報を利用して波形接続型音声合成を 行うことで作成可能な単語数が飛躍的に増加する[3].