Next: 合成方法 Up: No Title Previous: No Title

はじめに

NTTがサービスを提供している自動電話番号案内システム[1] 「あんないジョーズ」では応答音声の合成に録音編集方式を採用している. これは,ガイダンスの文章に日本全国の地名,姓名,企業名などの単語を挿入し, 例えば「お調べのところは ``神奈川県''``横須賀市'' でよろしいですか.」 (下線部がガイダンス文章, `` ''内が挿入単語) などの応答音声を出力する方式である.

ここで使われる単語音声は日本全国の地名18万件,姓名22万件という膨大な件数にのぼる. そのため, 複数の話者が手分けして発声しており, しかも収録が長期間にわたっている. その結果,各単語の音質は不均質であり, 一応答文中に様々な声質が混在して聞きにくいという問題が生じる.

そこで,一部の単語のみを同一話者が発声し, その録音音声を用いて必要な単語音声全てを合成する方法を提案し, 日本の4,5,6モーラの地名を合成対象として検討を行った[2]. 本稿ではさらに,録音件数を減らすために前後音素環境に基づいた音節部品種類の削減も検討した.

Jin'ichi Murakami
1999-10-22