次へ: 波形接続型音声合成 上へ: hon 戻る: 表一覧目次

はじめに

現在，カーナビゲーションシステムや電車の社内アナウンスなどのように，音声ガイダンスを利用したシステムやサービスが様々な場面において利用されている．このようなシステムでは，録音編集方式が広く使われている．録音編集方式では，まず，システムやサービスに必要となる音声を，システム利用者の入力やサービスの利用される場所・時間などに依存するような比較的短い単語音声(以下，『可変部』)と，それ以外の比較的長い文節・文音声 (以下，『固定部』に区別する．そして，可変部と固定部を別々に録音しておき，必要に応じて組み合わせることで出力音声を構築する．

例えばカーナビゲーションシステムにおいて，「目的地は◯◯でよろしいですか．」というガイダンス音声を出力したい場合，◯◯の部分には，駅名や建物名などの単語音声が挿入される．ユーザーが目的地に「東京駅」を指定した場合，ガイダンス文は「目的地は“東京駅”でよろしいですか．」となる．例の場合，『東京駅』などの駅名や建物名などの単語音声が可変部，「目的地は」という部分が固定部となる．

録音編集方式を用いた音声合成においては，可変部と固定部を接続した場合の違和感を軽減するために，一般に同一話者の音声が必要となる．可変部と固定部を分離して録音することにより，必要となるすべての音声を録音する場合に比べて話者に対する負担は若干軽減されるが，可変部に挿入する単語が増大した場合，同一話者から全ての音声を録音することは困難となる．さらに，録音環境の違いにより発話速度周波数にばらつきが出るため，安定した品質の音声を得ることは非常に困難となる．

そこで，固定部と可変部に必要になる音声をすべて音声合成によって作成する方法が考えられる．例えば，音素や音節，CV，VCVを単位とした規則音声合成がある．規則音声合成は，古くからTTS音声合成において用いられてきた方法であり，基本的には，音声の特徴をパラメータとして抽出し，変形することによって合成音声を作成する．PSOLA方式による音声合成については，現在も多くの研究がなされている．また，最近ではHMMを用いて直接音声を合成する研究も行われている．しかし，いずれの場合においても，直接人の声を録音した音声のように，高い品質を安定して得ることが難しい点が問題である．

一方，録音した音声波形の一部(以下「音声素片」)を用いて別の音声を合成する方法があり，一般に，波形接続型音声合成と呼ばれる．波形接続型音声合成は，音声素片を取り出し，接続することによって合成音声を作成する．接続単位については，音素，CV，VCV，CVCなど，様々な単位が提案されている．

しかし，波形接続型音声合成においては，音声波形に信号処理を加えないため，韻律の扱いが問題となる．最も，波形接続型音声合成に限らず，一般に音声合成において，韻律制御は重大な課題であるが，音声合成の対象として小さな単位である単語を合成する場合においては，地名などの固有名詞では周波数のばらつきが比較的小さく，アクセント型がほぼ一意に決まるため，周波数とモーラ情報の依存関係を効率的に利用することが可能である．そして，固有名詞を対象とした実験では，実用的な品質が得られたと報告されている．また，普通名詞に適用した場合も，明瞭性の高い合成音声が作成でき，さらにアクセント情報としてアクセント型を考慮することで，より自然性に近い合成音声に近い合成音声の作成が可能であることが示されている．

しかし，波形接続音声では音節素片選択時の条件が厳しく作成できる音声の数が少ないという問題がある，そこで本研究では木に基づく状態共有を用いて素片選択の条件を緩和することで作成できる音声を増やし，条件を緩和したことによる作成した音声の劣化が考えられるので音質の評価を行った．

以降，2章，3章で波形接続型音声合成と木に基づく状態共有の説明する，そして4章で評価実験に関する説明を行い，5章で実験結果を報告する．実験により表れた問題点を6章で述べ，7章で6章で述べた問題の考察をする．

Ryo Yamagata(2005) 平成18年5月8日