next up previous
Next: 波形接続型音声合成 Up: はじめに Previous: 研究の背景

録音編集型音声合成の問題点

録音編集方式を用いた音声合成においては,可変部と固定部を接続した場合の 違和感を軽減するために,通常,同一話者の音声が必要となる.しかし,可変 部に挿入する単語が増大した場合,同一話者から全ての音声を録音することは 困難である.仮に同一話者で収録したとしても,収録時間が長期間になるため, 録音環境の違いや話者の疲労により,発話速度やピッチにばらつきが出る.

そこで,可変部に必要になる音声を音声合成によって作成する方法が考えられ る.規則音声合成は,古くからTTS音声合成において用いられてきた方法であ り,多くの手法が提案されている.基本的には,音声の特徴をパラメータとし て抽出し,信号処理によって合成音声を作成する.現在商用化されている音声 合成はPSOLA[4]方式が主流のようだ.最近は,HMMを用いて直接音声 を合成する研究も盛んである[3][6].しかし,いずれ の方式も,人の声のような自然性の高い音声を安定して得ることが困難である [2].そのため,可変部に規則音声合成を用いても,ガイダンス 音声に,違和感が残ることが多い.



Jin'ichi Murakami 2008-08-23