話者性,自然性を持った音声を合成するために, 合成したい話者の音声を収集し, そこから切り出した音声波形に全く 処理を加えずに接続する方式が提案されている[3],[4]. この方式は話者性の保存という点ですぐれた成果をあげているが, 音質がデータベースの品質に大きく依存し, しかもそのデータベースの作成方法や十分性が議論できない.
本研究でも, 収集しておいた単語の録音音声から適切な部分を切りだし, その波形になるべく信号処理を施さずに接続する 方式を採用する. ただし,波形の接続単位 や韻律的な特徴を表わすパラメータが従来の方法と異なる. 特に 韻律的特徴を表わすパラメータとしてモーラ位置と モーラ数という簡単なものを採用したことにより, どのような単語を録音すれば良いのか, その単語はどのようにして選択すれば良いのかを 決定することができる.