next up previous contents
次へ: 目次 上へ: hon 戻る: hon   目次

概要

音声合成の手法の1つとして波形接続型音声合成法が提案されている.この手法 は録音音声から音節単位で波形素片を取り出し,信号処理をせずに接続すること で,自然性の高い音声が合成できる.しかし,任意の一般名詞を作成しようと するには大量の録音単語が必要である.そこで収録されているDBに対して木に基 づくクラスタリング(以後クラスタリング)を行い,音響パラメータが似た音節素 片をグループ化する.クラスタリングにより得られた情報を利用して波形接続型 音声合成を行うことで作成可能な単語数が飛躍的に増加する.しかしクラスタリ ングを行う際の最適な条件については明らかにされていない.

そこで本研究ではクラスタリングに関して,特徴パラメータとしてFBANK及びMFCCを 利用し,特徴パラメータの違いを調査するために対比較実験を行った.同 時にクラスタリングで条件緩和を施すのに適した言語的な情報の調査のために対 比較実験を行った.また全体に関して,音声を合成する事で音質の劣化が懸念さ れる為,オピニオン評価実験により音質の評価を行った.

その結果,オピニオン評価実験では,クラスタリングを利用した合成音声で3.6, 波形接続型音声合成で3.9,自然音声で4.5というオピニオンスコアが得られた.ク ラスタリングを利用した合成音声は,自然音声には少し及ばないものの,波形接続 型合成音声とあまり差がなく,品質の高い合成音声が作成出来たことが分かった.

対比較実験において,特徴パラメータにFBANKを用いた合成音声が 47%,MFCC を用いた合成音声が53%となった.両パラメータにほとんど差はない が,若干MFCCを用いた合成音声の方が良い結果が得られたため,クラスタリングの 特徴パラメータにはMFCCを用いた方が良いことが分かった.

またクラスタリングで条件緩和を行う言語的な情報としてモーラ情報を用いた合 成音声が81%,モーラ情報と前後音素環境を用いた合成音声が19%となった.この結果 よりクラスタリングで条件緩和を行う言語的な情報にはモーラ情報を用いた方が 良い事が分かった.



平成19年3月12日