Next: 音節波形接続方式 Up: main Previous: main

はじめに

音声合成は古くから規則合成方式が研究されてきた．しかし，規則合成方式は音声を合成するときに信号処理が必要である．これが品質を低下させる原因になっている．

そこで音質劣化の原因とされる信号処理を出来るだけ使用しないCHATR[1]が提案された．CHATRは合成したい話者の音声をあらかじめ録音しておき，そこから部分的に切り出した音声波形を接続して音声を合成する方法である．しかし，このCHATRは音素波形を選ぶ際に信号処理を使用するため，最良の波形が選択されない場合がある．

そこで，CHATRとよく似た手法として音節波形接続方式[2]が提案されている．この手法は，言語情報のみを利用して音節波形を選択する．そのため，音声を合成する際に信号処理を一切使用しない．

この手法は，過去の研究において，固有名詞，普通名詞，文節(短文節)を対象として行われた．その結果，品質の高い合成音声が得られることが報告されている[3][4][5]．

しかし，この手法は文節(短文節)における音声合成において1話者のみでしか行われていない．またフレーズ(長文節)における有効性が確認されていない．そこで本研究は，この2つの問題点について調査を行う．

Jin'ichi Murakami 2008-08-23