例えば,「次の交差点を右折です.」という音声ガイダンスを作成する場合, 「次の○○左折です.」を固定部に,「交差点を」可変部を挿入して作成する. 録音編集方式を用いた音声合成においては,可変部と固定部を接続した場合の 違和感を軽減するために,一般に同一話者の音声が必要となる.可変部と固定部 を分離して録音することにより,必要となるすべての音声を録音する場合に比べ て話者に対する負担は若干軽減されるが,可変部に挿入する単語が増大した場合, 同一話者から全ての音声を録音することは困難となる.そこで,固定部は録音音 声,可変部は合成音声を用いる方式がとられている.その音声合成を作成する方 法の1つとして,音節波形接続方式[1]が提案されている.
音節波形接続方式は,音響的なパラメータを使用せず,言語的なパラメータのみ で合成音声を作成する方式であり,信号処理を加えないで接続することにより, 自然性の高い合成音声を作成できる.この方式の過去の研究としては,固有名詞,普通名詞,文節(短文節)を対象として行われた.その結果,品質の高い合成音声が得られることが報告されている[2][3][4]. しかし,この手法は文節(短文節)における音声合成において1話者のみでしか行われ ていない.またフレーズ(長文節)における有効性が確認されていない. そこで本研究は,この2つの問題点について調査を行う.
作成した合成音声を評価するために,聴覚実験ではオピニオン評価実験と対比較 実験を行った.その結果,聴覚実験におけるオピニオン評価において,短文節の 合成音声は4.41,また,フレーズの合成音声は3.71という結果が得られた. そして対比較実験結果では,短文節の合成音声が26.6%,フ レーズの合成音声が7%が自然音声よりも良い音だと判断されたことから,高い 品質の合成音声が作成可能であることが分かった.
以降,2章で音節波形接続方式を用いた音声合成について説明する.そして,3章 で音声合成の評価方法の説明を行い,4章で文節発声における音節波形接続方式 の話者依存性,5章でフレーズにおける音節波形接続方式の有効性について述べ る.