next up previous contents
次へ: 目次 上へ: hon 戻る: hon   目次

概要

音声合成の手法の一つとして波形接続型音声合成がある. この手法は録音音声から音節を単位とし,波形素片を取り出し, 信号処理をせずに接続することで,自然性の高い音声を合成できる. また,前後音素環境,モーラ情報,アクセント型などの付加的な情報 を用いることで,品質が向上することが知られている.

しかし,任意の一般名詞を作成しようとするには大量の録音単語が 必要である,音声データベースとしてATR単語発話データベースAset (5240単語)を使用した場合5240単語中の470単語しか作成できない.

そこで任意の音声を合成可能にするために,収録されているDBに対して 木に基づくクラスタリングを行い,音響パラメータが似た音節素片を グループ化する.グループ化された情報を利用して波形接続型音声合成 することで音声を合成し,作成した音声の音質の評価を行う.

聴覚実験ではオピニオン評価実験と対比較実験を行った.

その結果,木に基づくクラスタリング(以後クラスタリング合成)を用いた合成音声では 3.7,自然音声では4.9,オリジナルの波形接続型音声接続(以後オリジナル合成)で4.3 というオピニオンスコアが得られた.クラスタリング合成は自然音声には大きく 及ばなかったが品質の高い音声が作成できたことがわかる.

対比較実験結果では自然性とクラスタリング合成の結果は 91%が自然音声の方が良いと判定されたが9%が自然音声よりも 良い音だと判断されたことから高い品質の合成音声が作成可能 であることが分かった.



Ryo Yamagata(2005) 平成18年5月8日