NTT 情報流通プラットフォーム研究所 |
〒239-0847 横須賀市 光の丘 1-1 |
0468-59-5858 |
{mizusawa,higasida}@isl.ntt.co.jp |
鳥取大学 工学部 |
〒680-8552 鳥取市 湖山町南 4-101 |
0857-31-6788 |
murakami@ike.tottori-u.ac.jp |
録音編集方式による音声合成において,可変部の単語件数が多い場合には必要 な音声を全て同一話者の音声で準備するのが困難である. 本研究では必要な 単語の一部のみを同一話者の声で録音し,その音声波形から切り出した音節波 形をほぼそのまま接続することで録音していない単語音声を合成する方法を検 討した. 本方式は各音節の韻律的な特徴を単語のモーラ数と音節の単語内モー ラ位置で代表させており,ピッチ周波数やパワーの定量的な分析,予測を行わな いのが特徴である. 日本の地名を合成対象として必要録音件数の調査および合成実験を行ったとこ ろ,1万7千件の録音音声から4,5,6モーラ語の地名10万5千件が合成でき,合成音 声の品質も十分実用的なものであることがわかった. 単語音声合成,録音編集方式,音節波形接続,韻律的特徴,モーラ位置,モーラ数
|
Simple Word Synthesis by Concatenating Syllabic Components |
based on Positional Features with Mora Length |
NTT Information Sharing Platform Laboratories |
1-1, Hikarinooka, Yokosuka-shi |
Kanagawa 239-0847, Japan |
+81-468-59-5858 |
{mizusawa,higasida}@isl.ntt.co.jp |
Faculty of Engineering Tottori University |
4-101, Minami Koyama-cho, Tottori-shi |
Tottori 680-8552, Japan |
+81-857-31-6788 |
murakami@ike.tottori-u.ac.jp |
This paper proposes a method that synthesizes a huge number of words by concatenating syllabic waveforms obtained from recorded words selected carefully. This method assumes that just the mora position and the mora length represent enough of the prosodic features to realize synthesis at the word level. An experiment study to synthesize Japanese city and town names with five moras by the proposed method was carried out. Competitive opinion scores were obtained by the synthesized voices compared with those obtained by actual voices. By our estimation, only 17,000 names need to be recorded to cover the remaining names with 3, 4, and 5 mora, which totals about 105,000.
|