現在,カーナビゲーションシステムや電車の車内アナウンスなどのように,音 声ガイダンスを利用したシステムやサービスが様々な場面において利用されて いる.このようなシステムでは,録音編集方式が広く使われている.録音編集 方式では,まず,システムやサービスに必要となる音声を,システム利用者の 入力やサービスの利用される場所・時間などに依存するような比較的短い単語 音声(以下,「可変部」)と,それ以外の比較的長い文節・文音声(以下, 「固定部」)に区別する.そして,可変部と固定部を別々に録音しておき,必 要に応じて組み合わせることで出力音声を構築する.例えばカーナビゲーショ ンシステムにおいて,「目的地は○○○よろしいですか.」というガイダンス 音声を出力したい場合,○○○の部分には,駅名や建物名などの単語音声と 「で」などの助詞が挿入される.ユーザーが目的地に「東京駅」を指定した場 合,ガイダンス文は「目的地は”東京駅で”よろしいですか.」となる.例の 場合,「東京駅で」などの駅名や建物名などの単語音声と助詞が可変部,「目 的地は〜」という部分が固定部となる.
録音編集方式を用いた音声合成においては,可変部と固定部を接続した場合の 違和感を軽減するために,一般に同一話者の音声が必要となる.可変部と固定 部を分離して録音することにより,必要となるすべての音声を録音する場合に 比べて話者に対する負担は若干軽減されるが,可変部に挿入する文節が増大し た場合,同一話者から全ての音声を録音することは困難となる.さらに,録音 環境の違いにより発話速度や周波数にばらつきが出るため,安定した品 質の音声を得ることは非常に困難となる.そこで,可変部や固定部に必要にな る音声をすべて音声合成によって作成する方法が考えられる.
音声合成には古い歴史がある.そして多くの種類が提案されている.例えば, 規則音声合成は,古くからTTS音声合成において用いられてきた方法であり, 基本的には,音声の特徴をパラメータとして抽出し,変形することによって合 成音声を作成する.PSOLA方式による音声合成については,現在も多くの研究 がなされている.また,最近ではHMMを用いて直接音声を合成する研究も行わ れている[5][6].しかし,いずれの場合においても,直 接人の声を録音した自然音声のような高い品質を得ることは困難である. [7].
ところで,一般に音声信号に信号処理を加えた場合,自然性が劣化する.そこ で信号処理を行わない音声合成方法が提案されている[1].その 代表的な手法がCHATR[9]である.CHATRは,あらかじめ合成したい話 者の音声を録音しておき,そこから部分的に切り出した音声波形を信号処理を せずに接続して音声を合成する.
音節波形接続方式[2],[3]は,CHATRと似た手法である. 合成音声の対象は基本的に単語である.始めに,人名地名などの固有名詞を対 象とした[2],次に一般名詞を対象にした[3].この方 式は,あらかじめ録音しておいた音声波形を,音節単位で分割し,接続するこ とで合成音声を作成する.CHATRとの大きな違いは,言語的なパラメータのみ を利用して波形を選択している点である.
一般に音声合成において,韻律制御は重要な課題である.そして,ToBIモデル や藤崎モデルなどの韻律モデルが使用されている[10].しかし, 地名などの固有名詞の合成音声の場合では F_0周波数のばらつきが比較的小 さく,アクセント型がほぼ一意に決まるため, 周波数とモーラ情報の依 存関係を効果的に利用できる[2].そして,固有名詞を対象とし た実験では,実用的な品質が得られたことが報告されている.また,普通名詞 に適用した場合も,モーラ情報とアクセント型を考慮することで,より自然音 声に近い合成音声の作成が可能である[3][4].
本研究では,文節に対して音節波形接続方式を適用し,有効性の確認を行う. 文節は名詞に比べて韻律が複雑になるため,通常の発話の音声では音声合成が 困難だと考えられる.そこで,本研究では文節発声で発話速度が遅い音声の合 成を試みる.また,作成した合成音声の問題点から,音声波形の選択条件を追 加し,より自然音声に近い合成音声の作成を目指す.