波形接続型音声合成においては,録音音声に対してラベル(音素境界位置)が 付与されたデータが必要となる.今回使用したATRのAsetでは、人手によるラ ベルデータがある.しかし,人手によるラベリングには多くのコストがかかる ため,自動ラベルが好ましい.
そこで,ラベルデータを自動的に作成し,自動ラベルと手動ラベルによる音声 合成の明瞭度および自然性の差を調査する.自動音素ラベリングには様々な方 法があるが,本研究では,HMMによる基本的な方法を用いる.ツールとしては HTK[17]を利用する.使用したパラメータを表8に示す.
自動音素ラベリングでは,まずAsetの5,240件を奇数番と偶数番に分ける.次 に奇数番データでHMMを学習する.最後にViterbiアルゴリズムを利用して偶数 番データに自動ラベルを行う.また,偶数番データでHMMを学習して奇数番デー タに自動ラベルを行う.
表9に結果を示す.ただし,実験は4モーラ単語50個についてのみ 行った.
了解度 正解率(%) | オピニオンスコア | |||||
評価音節数: 1,000 | 評価単語数: 50 | |||||
FTK | FYN | 平均 | FTK | FYN | 平均 | |
手動 ラベル | 94.4 | 98.4 | 96.4 | 4.3 | 4.3 | 4.3 |
自動 ラベル | 94.0 | 96.4 | 95.2 | 4.1 | 4.2 | 4.15 |
この結果をみると,オピニオンスコアにおいて,手動ラベルは自動ラベルと比較 してやや良いが,あまり大きな差がない.また,了解度では,ほとんど差がな い.
なお,文献[16]では,本実験の結果と同様に,波形接続型音声合成に おいて,手動ラベルと自動ラベルで得られる合成音声に,品質に差があまりな いことが紹介されている.