next up previous
次へ: はじめに


音節波形接続による単語音声合成

水澤 紀子% latex2html id marker 2140
\setcounter{footnote}{2}\fnsymbol{footnote} 村上 仁一% latex2html id marker 2141
\setcounter{footnote}{3}\fnsymbol{footnote} 東田 正信% latex2html id marker 2142
\setcounter{footnote}{2}\fnsymbol{footnote}

% latex2html id marker 2143
\setcounter{footnote}{2}\fnsymbol{footnote}NTT 情報流通プラットフォーム研究所
〒239-0847 横須賀市 光の丘 1-1
0468-59-5858
{mizusawa,higasida}@isl.ntt.co.jp
% latex2html id marker 2148
\setcounter{footnote}{3}\fnsymbol{footnote}鳥取大学 工学部
〒680-8552 鳥取市 湖山町南 4-101
0857-31-6788
murakami@ike.tottori-u.ac.jp


録音編集方式による音声合成において,可変部の単語件数が多い場合には必要 な音声を全て同一話者の音声で準備するのが困難である. 本研究では必要な 単語の一部のみを同一話者の声で録音し,その音声波形から切り出した音節波 形をほぼそのまま接続することで録音していない単語音声を合成する方法を検 討した. 本方式は各音節の韻律的な特徴を単語のモーラ数と音節の単語内モー ラ位置で代表させており,ピッチ周波数やパワーの定量的な分析,予測を行わな いのが特徴である.

日本の地名を合成対象として必要録音件数の調査および合成実験を行ったとこ ろ,1万7千件の録音音声から4,5,6モーラ語の地名10万5千件が合成でき,合成音 声の品質も十分実用的なものであることがわかった.

単語音声合成,録音編集方式,音節波形接続,韻律的特徴,モーラ位置,モーラ数



Simple Word Synthesis by Concatenating Syllabic Components
based on Positional Features with Mora Length


Noriko Mizusawa% latex2html id marker 2155
\setcounter{footnote}{2}\fnsymbol{footnote} Jin'ichi Murakami% latex2html id marker 2156
\setcounter{footnote}{3}\fnsymbol{footnote} Masanobu Higashida% latex2html id marker 2157
\setcounter{footnote}{2}\fnsymbol{footnote}

% latex2html id marker 2158
\setcounter{footnote}{2}\fnsymbol{footnote}NTT Information Sharing Platform Laboratories
1-1, Hikarinooka, Yokosuka-shi
Kanagawa 239-0847, Japan
+81-468-59-5858
{mizusawa,higasida}@isl.ntt.co.jp
% latex2html id marker 2164
\setcounter{footnote}{3}\fnsymbol{footnote}Faculty of Engineering Tottori University
4-101, Minami Koyama-cho, Tottori-shi
Tottori 680-8552, Japan
+81-857-31-6788
murakami@ike.tottori-u.ac.jp


This paper proposes a method that synthesizes a huge number of words by concatenating syllabic waveforms obtained from recorded words selected carefully. This method assumes that just the mora position and the mora length represent enough of the prosodic features to realize synthesis at the word level.

An experiment study to synthesize Japanese city and town names with five moras by the proposed method was carried out. Competitive opinion scores were obtained by the synthesized voices compared with those obtained by actual voices. By our estimation, only 17,000 names need to be recorded to cover the remaining names with 3, 4, and 5 mora, which totals about 105,000.


word synthesis, slot filling method, syllable, prosodic features, mora position, mora length


]



論文をps形式でダウンロードする (約1Mbyte)

サンプル音声を聞く

next up previous
次へ: はじめに
Jin'ichi Murakami 平成13年10月1日