next up previous
Next: 合成方法 Up: No Title Previous: No Title

はじめに

NTTがサービスを提供している 自動電話番号案内システム[1] 「あんないジョーズ」では 応答音声の合成に 録音編集方式を採用している. これは,ガイダンスの文章に 日本全国の地名,姓名,企業名などの単語を挿入し, 例えば 「お調べのところは ``神奈川県''``横須賀市'' でよろしいですか.」 (下線部がガイダンス文章, `` ''内が挿入単語) などの応答音声を出力する方式である.

ここで使われる単語音声は 日本全国の地名18万件,姓名22万件という 膨大な件数にのぼる. そのため, 複数の話者が手分けして発声しており, しかも収録が長期間にわたっている. その結果,各単語の音質は不均質であり, 一応答文中に様々な声質が混在して 聞きにくいという問題が生じる.

そこで,一部の単語のみを同一話者が発声し, その録音音声を用いて必要な単語音声全てを 合成する方法を提案し, 日本の4,5,6モーラの地名を合成対象として 検討を行った[2]. 本稿ではさらに,録音件数を減らすために 前後音素環境に基づいた音節部品種類の 削減も検討した.


Jin'ichi Murakami
1999-10-22