next up previous
Next: 波形接続に関する補則 Up: 音節波形接続方式 Previous: 音声合成に使用する素片

韻律,継続時間,調音結合の情報

一般に音声合成を行う場合,韻律の扱いが重要である.CHATRなどの通常の波 形接続型音声合成では,ToBIモデルや藤崎モデルで韻律モデルを推定し,推定 したピッチ周波数に類似した音素素片を録音した音声データのなかから選択す る.しかし,特定話者の単語発話を合成音声に使用する場合,単語のモーラ情 報(モーラ数とモーラ位置)が決まれば,単語によらずピッチ周波数がほぼ決定 されることが知られている[3].また,一般名詞の場合,名詞の モーラ情報に,名詞のアクセント型を加えることによって,非常に高い品質の 音声が得られる[4].文節発声の場合では,発話速度が遅い音声の 場合には,文節単位でゆっくりと区切るためピッチが初期化される.それによ り,文節発声の音声も一般名詞のみの発話と同様に扱うことができる [6].

音節波形接続型音声合成は,これらのことがらを利用して,韻律情報を,主に, モーラ数,モーラ位置,アクセント位置から得ている.また,音節継続時間の 情報は,主に,音節の前後環境と,モーラ長およびモーラ位置から得ている. そして,調音結合の情報は,主に,音節の前後の環境から得ている.



Jin'ichi Murakami 2008-08-23