main

録音編集方式による音声合成において，可変部の単語件数が多い場合，必要な音声を全て同一話者の音声で録音するのは困難である．本論文では，必要な単語の一部を同一話者の声で録音し，その音声波形から切り出した音節波形を信号処理をしないで接続することで，録音していない単語音声を合成する方法を検討した．本方式は，各音節の韻律的な情報として単語のモーラ数と音節の単語内モーラ位置を使用し，ピッチ周波数やパワーの定量的な分析や予測を行わないのが特徴である．日本の地名を合成対象として必要録音件数の調査を行ったところ，1万7千件の録音音声から4，5，6モーラ語の地名10万5千件が合成できることがわかった．また，地名を合成して聴覚実験を行ったところ，合成音声の品質も十分実用的なものであることがわかった．

概要: