一般に音声合成を行う場合,韻律の扱いが重要である.CHATR[7]など の通常の波形接続型音声合成では,ToBIモデルや藤崎モデルで韻律モデルを推 定し,推定したピッチ周波数に類似した音素素片を,録音した音声データのな かから選択する.しかし,特定話者の単語発話を合成音声に使用する場合,単 語のモーラ情報(モーラ数とモーラ位置)が決まれば,単語によらずピッチ周波 数がほぼ決定されることが知られている[2].また,一般名詞の 場合,名詞のモーラ情報に,名詞のアクセント型を加えることによって,非常 に高い品質の音声が得られる[4].文節発声の場合では,発話速度 が遅い音声の場合には,文節単位でゆっくりと区切るためピッチが初期化され る.それにより,文節発声の音声も一般名詞のみの発話と同様に扱うことがで きる[5].
音節波形接続型音声合成は,これらの事柄を利用して,韻律情報を,主に, モーラ数,モーラ位置,アクセント位置から得ている.また,音節継続時間の 情報は,主に,音節の前後環境と,モーラ長およびモーラ位置から得ている. そして,調音結合の情報は,主に,音節の前後の環境から得ている.