次へ: 音節波形接続方式 上へ: main 戻る: main

はじめに

現在，カーナビゲーションシステムや電車の車内アナウンスなどのように，音声ガイダンスを利用したシステムやサービスが様々な場面において利用されている．このようなシステムでは，録音編集方式が広く使われている．録音編集方式では，まず，システムやサービスに必要となる音声を，システム利用者の入力やサービスの利用される場所・時間などに依存するような比較的短い単語音声（以下，「可変部」）と，それ以外の比較的長い文節・文音声（以下，「固定部」）に区別する．そして，可変部と固定部を別々に録音しておき，必要に応じて組み合わせることで出力音声を構築する．例えばカーナビゲーションシステムにおいて，「目的地は○○○よろしいですか．」というガイダンス音声を出力したい場合，○○○の部分には，駅名や建物名などの単語音声と「で」などの助詞が挿入される．ユーザーが目的地に「東京駅」を指定した場合，ガイダンス文は「目的地は”東京駅で”よろしいですか．」となる．例の場合，「東京駅で」などの駅名や建物名などの単語音声と助詞が可変部，「目的地は～」という部分が固定部となる．

録音編集方式を用いた音声合成においては，可変部と固定部を接続した場合の違和感を軽減するために，一般に同一話者の音声が必要となる．可変部と固定部を分離して録音することにより，必要となるすべての音声を録音する場合に比べて話者に対する負担は若干軽減されるが，可変部に挿入する文節が増大した場合，同一話者から全ての音声を録音することは困難となる．さらに，録音環境の違いにより発話速度や周波数にばらつきが出るため，安定した品質の音声を得ることは非常に困難となる．そこで，可変部や固定部に必要になる音声をすべて音声合成によって作成する方法が考えられる．

音声合成には古い歴史がある．そして多くの種類が提案されている．例えば，規則音声合成は，古くからTTS音声合成において用いられてきた方法であり，基本的には，音声の特徴をパラメータとして抽出し，変形することによって合成音声を作成する．PSOLA方式による音声合成については，現在も多くの研究がなされている．また，最近ではHMMを用いて直接音声を合成する研究も行われている[5][6]．しかし，いずれの場合においても，直接人の声を録音した自然音声のような高い品質を得ることは困難である． [7]．

ところで，一般に音声信号に信号処理を加えた場合，自然性が劣化する．そこで信号処理を行わない音声合成方法が提案されている[1]．その代表的な手法がCHATR[9]である．CHATRは，あらかじめ合成したい話者の音声を録音しておき，そこから部分的に切り出した音声波形を信号処理をせずに接続して音声を合成する．

音節波形接続方式[2],[3]は，CHATRと似た手法である．合成音声の対象は基本的に単語である．始めに，人名地名などの固有名詞を対象とした[2]，次に一般名詞を対象にした[3]．この方式は，あらかじめ録音しておいた音声波形を，音節単位で分割し，接続することで合成音声を作成する．CHATRとの大きな違いは，言語的なパラメータのみを利用して波形を選択している点である．

一般に音声合成において，韻律制御は重要な課題である．そして，ToBIモデルや藤崎モデルなどの韻律モデルが使用されている[10]．しかし，地名などの固有名詞の合成音声の場合では F_0周波数のばらつきが比較的小さく，アクセント型がほぼ一意に決まるため，周波数とモーラ情報の依存関係を効果的に利用できる[2]．そして，固有名詞を対象とした実験では，実用的な品質が得られたことが報告されている．また，普通名詞に適用した場合も，モーラ情報とアクセント型を考慮することで，より自然音声に近い合成音声の作成が可能である[3][4]．

本研究では，文節に対して音節波形接続方式を適用し，有効性の確認を行う．文節は名詞に比べて韻律が複雑になるため，通常の発話の音声では音声合成が困難だと考えられる．そこで，本研究では文節発声で発話速度が遅い音声の合成を試みる．また，作成した合成音声の問題点から，音声波形の選択条件を追加し，より自然音声に近い合成音声の作成を目指す．

平成17年5月30日