next up previous
次へ: 音声合成方法の検討 上へ: main 戻る: main

はじめに

近年,音声を用いて情報を提供する自動応答システムが 広く用いられるようになってきている. 提供する情報がユーザごとに異なる場合は, 入力を促したり確認を行ったりする手続きが不可欠となるが, このためにはユーザの入力状況にきめ細かく対応した 応答音声が必要である.

このような応答音声の合成方法として, 録音編集方式が広く使われている. これは,出力するガイダンス文章を ユーザの入力に依存する単語(以下「可変部」と呼ぶ) とそれ以外の部分(以下「固定部」と呼ぶ) とに分けて 別々に録音しておき, 出力内容に応じた可変部を固定部に挿入して 出力音声を作成する方法である. 現在NTTがサービスを提供している 自動電話番号案内システム[1][2] 「あんないジョーズ」の 応答音声も録音編集方式を採用しており, 「お調べのところは○○ でよろしいですか.」 などのガイダンスの文章(下線部が固定部, ○○が可変部が挿入される部分)に 日本全国の地名,姓名,企業名などの単語を挿入し, 「お調べのところは``神奈川県'' ``横須賀市'' でよろしいですか.」 といった応答音声を出力する.

通常このような用途に用いる音声は, 固定部,可変部間,可変部同士間に生じる違和感を軽減するため, 全て同一話者が発声したものを録音する. しかし例えば前出の自動電話番号案内システムでは, 可変部として 日本全国の地名18万件,姓名22万件,企業名660万件という 膨大な件数の可変部音声が必要である. このように膨大な件数を 全て同一の話者が発声するのは時間的に非常に困難であり, 複数の話者が手分けして発声せざるを得ない. この結果 一応答文中に複数話者の声が混在し, ユーザに応答文の違和感を感じさせる原因となる. 仮に同一話者による発声が出来たとしても, 収録が長期間にわたると 高さ,速さが均質な音声を得るのは難しく, 一応答文中で声質にばらつきが生じるという 問題が残る.

上記のような問題に対して, ガイダンス文まで含めて規則合成などの音声合成方法で 合成するという解決方法も考えられるが, 人間の自然音声に近い 高品質な合成音声が得られるとは言い難い. また,別話者の発声による単語音声を 話者変換技術により全て同一話者の 音声に変換するという解決方法も考えられるが, 波形を大きく操作するために, 音質の劣化は免れない.

そこで, 必要な単語の一部のみを同一話者の音声で録音し, その音声波形を利用して, 話者性を残したまま他の単語音声を合成する方法を検討した. 録音すべき単語数が, 同一話者が短期間で発声出来る数であれば, ガイダンス文と同じ話者に単語も読み上げてもらうことで システムからの応答を全て同一話者の音声で出力でき, ユーザに与える不自然さを軽減できる.


Jin'ichi Murakami 平成13年10月1日