本論文の合成対象である単語音声は,ガイダンス文の可変部に挿入して使用さ れる.固定部と可変部の間の違和感を軽減するためには合成音声が固定部の話 者の声質と高い自然性を持つことが望まれる.
話者性および自然性を持った音声を合成するために,合成したい話者の音声を 収集し,そこから切り出した音声波形に全く処理を加えずに接続する方式が ATRのNick Campbellらによって提案されている[3],[4].この 方式は話者性の保存という点ですぐれた成果をあげている[3].この 音声合成方法CHATRは合成対象を文にしている.そしてピッチ周波数をTOBIモ デルで推定している.そのため韻律が不自然に聞こえる場合がある.また音質 がデータベースの品質に大きく依存し,しかもそのデータベースの作成方法が 議論しにくい.
本論文では,[3]と同様に,収集しておいた単語の録音音声から適切 な部分を切りだし,その波形に信号処理を施さずに接続する方式を採用する. ただし,本論文では合成対象を,ガイダンス文の固定部,すなわち固有名詞に 限定する.そして,従来の方法[3]と異なる波形の接続単位や韻律的 な特徴を表わすパラメータを採用する.本論文で用いた韻律的特徴を表わすパ ラメータを表1に示す.これらのパラメータを採用したこ とにより,どのような単語を録音すれば良いのか,その単語はどのようにして 選択すれば良いのかを明確に決定することができる.