例えばカーナビゲーションシステムにおいて,「目的地は◯◯でよろしいです か.」というガイダンス音声を出力したい場合,◯◯の部分には,駅名や建物名 などの単語音声が挿入される.ユーザーが目的地に「東京駅」を指定した場合, ガイダンス文は「目的地は“東京駅”でよろしいですか.」となる. 例の場合,『東京駅』などの駅名や建物名などの単語音声が可変部, 「目的地は 」という部分が固定部となる.
録音編集方式を用いた音声合成においては,可変部と固定部を接続した場合の 違和感を軽減するために,一般に同一話者の音声が必要となる.可変部と固定部 を分離して録音することにより,必要となるすべての音声を録音する場合に比べ て話者に対する負担は若干軽減されるが,可変部に挿入する単語が増大した場合, 同一話者から全ての音声を録音することは困難となる.さらに,録音環境の 違いにより発話速度 周波数にばらつきが出るため,安定した品質の音声を 得ることは非常に困難となる.
そこで,固定部と可変部に必要になる音声をすべて音声合成によって作成する 方法が考えられる.例えば,音素や音節,CV,VCVを単位とした規則音声合成が ある.規則音声合成は,古くからTTS音声合成において用いられてきた方法で あり,基本的には,音声の特徴をパラメータとして抽出し,変形することによっ て合成音声を作成する.PSOLA方式による音声合成については,現在も多くの 研究がなされている.また,最近ではHMMを用いて直接音声を合成する研究も 行われている.しかし,いずれの場合においても,直接人の声を録音した音声 のように,高い品質を安定して得ることが難しい点が問題である.
一方,録音した音声波形の一部(以下「音声素片」)を用いて別の音声を合成 する方法があり,一般に,波形接続型音声合成と呼ばれる. 波形接続型音声合成は,音声素片を取り出し,接続することによって合成音声 を作成する.接続単位については,音素,CV,VCV,CVCなど,様々な単位が 提案されている.
しかし,波形接続型音声合成においては,音声波形に信号処理を加えないため, 韻律の扱いが問題となる.最も,波形接続型音声合成に限らず, 一般に音声合成において,韻律制御は重大な課題であるが,音声合成の対象 として小さな単位である単語を合成する場合においては,地名などの固有名詞 では 周波数のばらつきが比較的小さく,アクセント型がほぼ一意に 決まるため, 周波数とモーラ情報の依存関係を効率的に利用する ことが可能である.そして,固有名詞を対象とした実験では,実用的な 品質が得られたと報告されている. また,普通名詞に適用した場合も,明瞭性の高い合成音声が作成でき, さらにアクセント情報としてアクセント型を考慮することで,より自然性に 近い合成音声に近い合成音声の作成が可能であることが示されている.
しかし,波形接続音声では音節素片選択時の条件が厳しく作成できる音声の数が 少ないという問題がある,そこで本研究では木に基づく状態共有を用いて素片選択 の条件を緩和することで作成できる音声を増やし,条件を緩和したことによる 作成した音声の劣化が考えられるので音質の評価を行った.
以降,2章,3章で波形接続型音声合成と木に基づく状態共有の説明する, そして4章で評価実験に関する説明を行い,5章で実験結果を報告する. 実験により表れた問題点を6章で述べ,7章で6章で述べた問題の考察 をする.