概要

次へ: 韻律的な特徴を表わすパラメータ（モーラ数とモーラ位置と音素環境） 上へ: 音声合成方法の検討 戻る: 音声合成方法の検討

概要

本論文の合成対象である単語音声は，ガイダンス文の可変部に挿入して使用される．固定部と可変部の間の違和感を軽減するためには合成音声が固定部の話者の声質と高い自然性を持つことが望まれる．

話者性および自然性を持った音声を合成するために，合成したい話者の音声を収集し，そこから切り出した音声波形に全く処理を加えずに接続する方式が ATRのNick Campbellらによって提案されている[3],[4]．この方式は話者性の保存という点ですぐれた成果をあげている[3]．この音声合成方法CHATRは合成対象を文にしている．そしてピッチ周波数をTOBIモデルで推定している．そのため韻律が不自然に聞こえる場合がある．また音質がデータベースの品質に大きく依存し，しかもそのデータベースの作成方法が議論しにくい．

本論文では，[3]と同様に，収集しておいた単語の録音音声から適切な部分を切りだし，その波形に信号処理を施さずに接続する方式を採用する．ただし，本論文では合成対象を，ガイダンス文の固定部，すなわち固有名詞に限定する．そして，従来の方法[3]と異なる波形の接続単位や韻律的な特徴を表わすパラメータを採用する．本論文で用いた韻律的特徴を表わすパラメータを表1に示す．これらのパラメータを採用したことにより，どのような単語を録音すれば良いのか，その単語はどのようにして選択すれば良いのかを明確に決定することができる．

Parameters for proposed speech synthesis

表: 本論文で用いるパラメータ
1	単語のモーラ数
2	単語内のモーラ位置
3	前後の音素環境

平成14年9月3日