次へ: 波形接続型音声合成 上へ: hon 戻る: 表一覧目次

はじめに

現在，カーナビゲーションシステムや電車の社内アナウンスなどのように，音声ガイダンスを利用したシステムやサービスが様々な場面において利用されている．このようなシステムでは，録音編集方式が広く使われている．録音編集方式というのは，ユーザーに依存しない比較的長い文音声(以下，固定部)と，ユーザーに依存する比較的短い単語・文節音声(以下，可変部)を別々に録音しておき，必要に応じて組み合わせることで，目的となる出力音声を作成する方法である．

例えば，「次の交差点を右折です.」という音声ガイダンスを作成する場合，「次の○○左折です.」を固定部に，「交差点を」可変部を挿入して作成する．録音編集方式を用いた音声合成においては，可変部と固定部を接続した場合の違和感を軽減するために，一般に同一話者の音声が必要となる．可変部と固定部を分離して録音することにより，必要となるすべての音声を録音する場合に比べて話者に対する負担は若干軽減されるが，可変部に挿入する単語が増大した場合，同一話者から全ての音声を録音することは困難となる．そこで，固定部は録音音声，可変部は合成音声を用いる方式がとられている．その音声合成を作成する方法の1つとして，音節波形接続方式[1]が提案されている．

音節波形接続方式は，音響的なパラメータを使用せず，言語的なパラメータのみで合成音声を作成する方式であり，信号処理を加えないで接続することにより，自然性の高い合成音声を作成できる．この方式の過去の研究としては，固有名詞，普通名詞，文節(短文節)を対象として行われた．その結果，品質の高い合成音声が得られることが報告されている[2][3][4]．しかし，この手法は文節(短文節)における音声合成において1話者のみでしか行われていない．またフレーズ(長文節)における有効性が確認されていない．そこで本研究は，この2つの問題点について調査を行う．

作成した合成音声を評価するために，聴覚実験ではオピニオン評価実験と対比較実験を行った．その結果，聴覚実験におけるオピニオン評価において，短文節の合成音声は4.41，また，フレーズの合成音声は3.71という結果が得られた．そして対比較実験結果では，短文節の合成音声が26.6%，フレーズの合成音声が7%が自然音声よりも良い音だと判断されたことから，高い品質の合成音声が作成可能であることが分かった．

以降，2章で音節波形接続方式を用いた音声合成について説明する．そして，3章で音声合成の評価方法の説明を行い，4章で文節発声における音節波形接続方式の話者依存性，5章でフレーズにおける音節波形接続方式の有効性について述べる．

平成20年3月22日