ここで使われる単語音声は 日本全国の地名18万件,姓名22万件という 膨大な件数にのぼる. そのため, 複数の話者が手分けして発声しており, しかも収録が長期間にわたっている. その結果,各単語の音質は不均質であり, 一応答文中に様々な声質が混在して 聞きにくいという問題が生じる.
そこで,一部の単語のみを同一話者が発声し,
その録音音声を用いて必要な単語音声全てを
合成する方法を提案し,
日本の4,5,6モーラの地名を合成対象として
検討を行った[2].
本稿ではさらに,録音件数を減らすために
前後音素環境に基づいた音節部品種類の
削減も検討した.