韻律，継続時間，調音結合の情報

次へ: 波形接続に関する補則 上へ: 音節波形接続方式 戻る: 音声合成に使用する素片目次

韻律，継続時間，調音結合の情報

一般に音声合成を行う場合，韻律の扱いが重要である．CHATR[7]などの通常の波形接続型音声合成では，ToBIモデルや藤崎モデルで韻律モデルを推定し，推定したピッチ周波数に類似した音素素片を，録音した音声データのなかから選択する．しかし，特定話者の単語発話を合成音声に使用する場合，単語のモーラ情報(モーラ数とモーラ位置)が決まれば，単語によらずピッチ周波数がほぼ決定されることが知られている[2]．また，一般名詞の場合，名詞のモーラ情報に，名詞のアクセント型を加えることによって，非常に高い品質の音声が得られる[4]．文節発声の場合では，発話速度が遅い音声の場合には，文節単位でゆっくりと区切るためピッチが初期化される．それにより，文節発声の音声も一般名詞のみの発話と同様に扱うことができる[5]．

音節波形接続型音声合成は，これらの事柄を利用して，韻律情報を，主に，モーラ数，モーラ位置，アクセント位置から得ている．また，音節継続時間の情報は，主に，音節の前後環境と，モーラ長およびモーラ位置から得ている．そして，調音結合の情報は，主に，音節の前後の環境から得ている．

平成19年3月16日