next up previous
次へ: 音声合成方法の検討 上へ: main 戻る: main

まえがき

近年,音声を用いて情報を提供する自動応答システムが広く用いられている. このようなシステムにおいてユーザごとに提供する情報が異なる場合は,入力 を促したり確認を行ったりする手続きが不可欠となるため,ユーザの入力状況 にきめ細かく対応した音声ガイダンスが必要である.

このような音声ガイダンスの文章を合成する方法として,録音編集方式が広く 使われている.これは,出力するガイダンス文をユーザの入力に依存する単語 (以下「可変部」と呼ぶ)とそれ以外の部分(以下「固定部」と呼ぶ)とに分けて 別々に録音しておき,出力内容に応じた可変部を固定部に挿入して出力音声を 作成する方法である.現在NTT-BJ(NTT番号情報株式会社)がサービスを提供 している自動電話番号案内システム [1],[2]「あんないジョーズ」のガイダンス文も録音編集方式を採用 しており,「お調べのところは○○ でよろしいですか.」 などのガイダンス文(下線部が固定部, ○○が可変部が挿入される部分)に 日本全国の地名,姓名,企業名などの単語を挿入し, 「お調べのところは``神奈川県'' ``横須賀市'' でよろしいですか.」 といったガイダンス文を出力する.

通常このような用途に用いる音声は,固定部,可変部間,可変部同士間に生じ る違和感を軽減するため,全て同一話者が発声したものを録音する.しかし例 えば前出の自動電話番号案内システムでは,可変部として日本全国の地名18万 件,姓名22万件,企業名660万件という膨大な件数の可変部音声が必要である. このように膨大な件数を全て同一の話者が発声するのは時間的に非常に困難で あり,複数の話者が手分けして発声せざるを得ない.この結果,一応答文中に複 数話者の声が混在し,ユーザに応答文の違和感を感じさせる原因となる.仮に 同一話者による発声が出来たとしても,収録が長期間にわたるため,高さや速さが 均質な音声を得るのは難しく,一応答文中で声質にばらつきが生じるという問 題が残る.

上記のような問題に対して,固定部まで含めて規則合成などの音声合成方法で 合成するという解決方法も考えられるが,人間の自然音声に近い高品質な合成 音声が得られるとは言い難い.また,別話者の発声による単語音声を話者変換 技術により全て同一話者の音声に変換するという解決方法も考えられるが,現 在の技術では音質の劣化は免れない.

そこで,本研究では,固有名詞の音声合成に限定して,選択した音節を信号処 理をせずに単に接続して他の単語音声を合成する方法を検討する.そして波形 の選択のパラメータとして単語内のモーラ位置と単語のモーラ数と音素環境を 利用する.この方式は,信号処理を行わないため,話者性や自然性を残したま ま他の単語音声が合成できる.録音すべき単語数が,同一話者が短期間で発声 出来る数であれば,固定部と同じ話者に単語も読み上げてもらうことでシステ ムからの応答を全て同一話者の音声で出力でき,ユーザに与える不自然さを軽 減できる.具体的には日本の地名を合成対象とし,検討を行う.



平成14年9月3日