次へ: まとめ 上へ: 982003　自動ラベリングを用いた録音編集型音声合成の研究 戻る: 自動ラベリングの有効性の調査目次

考察

従来の研究では、地名ではモーラ数が同じ場合はピッチ周波数の分散が小さいため、アクセント型を意識しなくても良い[1]、と仮定されており、本研究も従った。しかし、本研究では普通名詞を対象としたため、アクセント型を未考慮のままでは極端に不自然な音声が作成されてしまう場合があった。

例えば、「海外」(ka/i/ga/i)という音声の場合、アクセントは「ka」に置かれるべきである。音の強弱を表すと、「ka i ga i ￣｜＿＿＿」となる。一方、本研究で作成した音声合成プログラムでは、この音声を作成するために、

「会員」(ka/i/i/N)
「大学」(da/i/ga/ku)
「大概」(ta/i/ga/i)
「後悔」(ko/u/ka/i)

という音声を選択し、音節波形を切り出した。これらの音声の切り出す部分の音の強弱を見てみると、以下の通りとなる。

「会員」： = 弱
「大学」： = 強
「大概」： = 強
「後悔」： = 弱

よって、「ka i ga i ＿｜￣￣｜＿」となり、アクセント型の異なった、不自然な音声が作成されてしまった。

これは、アクセント型を考慮することにより、より自然な合成音声の作成が可能であると考えられる。しかし、全ての音節部品に対するデータベースに対し、の音節部品がそれぞれ最低１つ以上含まれる必要があり、そのためには、録音件数を増やしてデータベースをさらに拡充することが必要であると考えられる。

平成14年3月7日