水澤 紀子
村上 仁一
東田 正信

% latex2html id marker 2143
NTT 情報流通プラットフォーム研究所
〒239-0847 横須賀市 光の丘 1-1
% latex2html id marker 2148
鳥取大学 工学部
〒680-8552 鳥取市 湖山町南 4-101

録音編集方式による音声合成において,可変部の単語件数が多い場合には必要 な音声を全て同一話者の音声で準備するのが困難である. 本研究では必要な 単語の一部のみを同一話者の声で録音し,その音声波形から切り出した音節波 形をほぼそのまま接続することで録音していない単語音声を合成する方法を検 討した. 本方式は各音節の韻律的な特徴を単語のモーラ数と音節の単語内モー ラ位置で代表させており,ピッチ周波数やパワーの定量的な分析,予測を行わな いのが特徴である.

日本の地名を合成対象として必要録音件数の調査および合成実験を行ったとこ ろ,1万7千件の録音音声から4,5,6モーラ語の地名10万5千件が合成でき,合成音 声の品質も十分実用的なものであることがわかった.


Simple Word Synthesis by Concatenating Syllabic Components
based on Positional Features with Mora Length

Noriko Mizusawa
Jin'ichi Murakami
Masanobu Higashida

% latex2html id marker 2158
NTT Information Sharing Platform Laboratories
1-1, Hikarinooka, Yokosuka-shi
Kanagawa 239-0847, Japan
% latex2html id marker 2164
Faculty of Engineering Tottori University
4-101, Minami Koyama-cho, Tottori-shi
Tottori 680-8552, Japan

This paper proposes a method that synthesizes a huge number of words by concatenating syllabic waveforms obtained from recorded words selected carefully. This method assumes that just the mora position and the mora length represent enough of the prosodic features to realize synthesis at the word level.

An experiment study to synthesize Japanese city and town names with five moras by the proposed method was carried out. Competitive opinion scores were obtained by the synthesized voices compared with those obtained by actual voices. By our estimation, only 17,000 names need to be recorded to cover the remaining names with 3, 4, and 5 mora, which totals about 105,000.

word synthesis, slot filling method, syllable, prosodic features, mora position, mora length


