next up previous
Next: 音節接続型音声合成 Up: はじめに Previous: 録音編集型音声合成の問題点

波形接続型音声合成

ところで,録音した音声波形の一部を用いて,信号処理を加えずに音声を合成 する方法がある.これを一般に,波形接続型音声合成と呼んでいる [1][8].

波形接続型音声合成は, 収録された大量の音声から,音声素片を取り出し, 接続することによって合成音声を作成する.接続単位については,音素,CV, VCV,CVCなど,様々な単位が提案されている[7].いずれの場合にお いても,基本的に信号処理を行わず,収録された録音音声から取り出した波形 をそのまま用いる.このため,話者の声の特徴(以下,「話者性」)や高い自 然性を保つことが可能である.この方式の1つにCHATR[8]がある. CHATRは,合成する音声の音響パラメータをモデルを利用して予測し,もっと も近い音素素片を接続することで,合成音声を得ている.そして音素素片の選 択のとき,ピッチやケプストラムなどの音響パラメータを利用している.



Jin'ichi Murakami 2008-08-23