next up previous
Next: 素片の選択単位の違いによる品質の差(音節単位と音素単位) Up: 考察 Previous: アクセントの有効性

自動ラベリング

波形接続型音声合成においては,録音音声に対してラベル(音素境界位置)が 付与されたデータが必要となる.今回使用したATRのAsetでは、人手によるラ ベルデータがある.しかし,人手によるラベリングには多くのコストがかかる ため,自動ラベルが好ましい.

そこで,ラベルデータを自動的に作成し,自動ラベルと手動ラベルによる音声 合成の明瞭度および自然性の差を調査する.自動音素ラベリングには様々な方 法があるが,本研究では,HMMによる基本的な方法を用いる.ツールとしては HTK[17]を利用する.使用したパラメータを表8に示す.

自動音素ラベリングでは,まずAsetの5,240件を奇数番と偶数番に分ける.次 に奇数番データでHMMを学習する.最後にViterbiアルゴリズムを利用して偶数 番データに自動ラベルを行う.また,偶数番データでHMMを学習して奇数番デー タに自動ラベルを行う.


Parameters for Automatic Labeling
Table: 自動ラベリングにおいて使用するパラメータ
標本周波数 16kHz
音響モデル 4状態3ループ
  Diagonal
mixture 3

9に結果を示す.ただし,実験は4モーラ単語50個についてのみ 行った.


Difference Hand Labeling and Automatic Labeling
Table: 手動ラベルと自動ラベルの差
  了解度 正解率(%) オピニオンスコア
  評価音節数: 1,000 評価単語数: 50
  FTK FYN 平均 FTK FYN 平均
手動 ラベル 94.4 98.4 96.4 4.3 4.3 4.3
自動 ラベル 94.0 96.4 95.2 4.1 4.2 4.15

この結果をみると,オピニオンスコアにおいて,手動ラベルは自動ラベルと比較 してやや良いが,あまり大きな差がない.また,了解度では,ほとんど差がな い.

なお,文献[16]では,本実験の結果と同様に,波形接続型音声合成に おいて,手動ラベルと自動ラベルで得られる合成音声に,品質に差があまりな いことが紹介されている.



Jin'ichi Murakami 2008-08-23