表7から,自動ラベルデータは手動ラベルデータに比べ,音節開 始時間,音節終了時間ともに,音節境界位置を20ms程度早くラベリングする ことが分かる.これより,全体の自動ラベルデータに対し,20ms程度遅くラ ベリングすることにより,手動ラベルデータを用いた合成音声に近づいた合 成音声が作成できるかもしれない.しかし,図1,図 2,図3から,自動ラベルと手動ラベルの音節境界位 置の差の頻度数で,最大となるものは,-0.05〜0.05の範囲であり,全体の自 動ラベルデータに対し,補正を行うべきではないかもしれない.
また,モーラ情報を使って,自動音素ラベリングを行った研究[13]で は,特定話者における音節境界位置の自動ラベルと手動ラベルの差の平均値と 標準偏差,および音節継続時間の自動ラベルと手動ラベルの差の平均値と標準 偏差を表11に示す.
表7と表11から,特定話者と比較すると,不特定話者 の音節境界位置の差,音節継続時間の差はともに,1.5倍程度大きくなってい ることが分かる.これは,自動ラベリングするデータが,不特定話者の自動ラ ベリングとなったために,精度が悪くなったと考えている.
また,図1,図2,図3より,他の特異 点となったデータをみると,音節開始時間の差においては,自動ラベリングが 遅いデータとして,中心の音節が「o」で,直前の音節は「o-u」であるものが 多く存在した.音節終了時間の差においては,自動ラベリングが早いデータと して,中心の音節に促音を含むものが見られ,自動ラベリングが遅いデータと して,中心の音節に「o-u」の連続母音を含むものが存在した.そして,音節 継続時間の差においては,自動ラベリングが早いデータとして,中心の音節に 撥音,促音を含むものが多く存在した.これより,各音節ごとに,細かく値の 補正を行うことで,手動ラベルに近づく合成音声の作成が可能と考えている.