next up previous contents
次へ: まとめ 上へ: 982003 自動ラベリングを用いた録音編集型音声合成の研究 戻る: 自動ラベリングの有効性の調査   目次

考察

従来の研究では、地名ではモーラ数が同じ場合はピッチ周波数の分散が小さい ため、アクセント型を意識しなくても良い[1]、と仮定されており、本研究も従っ た。しかし、本研究では普通名詞を対象としたため、アクセント型を未考慮のま までは極端に不自然な音声が作成されてしまう場合があった。

例えば、「海外」(ka/i/ga/i)という音声の場合、アクセントは「ka」に置かれ るべきである。音の強弱を表すと、「ka i ga i  ̄ | ___」となる。一方、本研究で作成した音 声合成プログラムでは、この音声を作成するために、

「会員」(ka/i/i/N)
「大学」(da/i/ga/ku)
「大概」(ta/i/ga/i)
「後悔」(ko/u/ka/i)

という音声を選択し、音節波形を切り出した。これらの音声の切り出す部分の音 の強弱 $ SW(x) $ を見てみると、以下の通りとなる。

「会員」:$ SW(/ka/) $ = 弱
「大学」:$ SW(/i/) $ = 強
「大概」:$ SW(/ga/) $ = 強
「後悔」:$ SW(/i/) $ = 弱

よって、「ka i ga i _ |  ̄ ̄ | _」となり、アクセント型の異なった、不自 然な音声が作成されてしまった。

これは、アクセント型を考慮することにより、より自然な合成音声の作成が可能 であると考えられる。しかし、全ての音節部品に対するデータベースに対し、 $ SW = 強, SW = 弱 $ の音節部品がそれぞれ最低1つ以上含まれる必要があり、 そのためには、録音件数を増やしてデータベースをさらに拡充することが必要で あると考えられる。



平成14年3月7日