next up previous contents
次へ: 目次 上へ: shuuron4 戻る: shuuron4   目次

概要

音声合成の手法の1つとして音節波形接続型音声合成[1]が提案され ている.この手法は録音音声から音節を単位とし,条件が一致する音節素片を切 り出し,信号処理を加えずに接続することで自然性の高い音声を合成できる.音 節波形接続型音声合成において,音声波形の音節開始位置・終了位置は,音節境 界位置が記載されたラベルを利用している.ラベルは人手で作成されているが, 波形接続用ではないため音節境界位置の精度が低い.そのため,音声合成時に波 形の接続点が不連続になり,音声品質が劣化する.そこで波形を滑らかに接続す るように波形接続時に人手で音節開始位置・終了位置に修正を加えている.しか し,この修正作業にはコストがかかる[2].

そこで,音節の精密な開始位置・終了位置を自動的に決める方法を提案した [3].具体的には,音節素片のパワーが最大となる周波数を求め,そ の初期位相が``-$\frac{\pi}{2}$''となる時間を音節開始位置にする. しかし,離散フーリェ変換の窓長を音節素片の音節開始位置における1周期の整 数倍にしなければ,初期位相に誤差が生じることがわかった.

本研究では,離散フーリエ変換の窓長を音節素片の開始時から1周期の整数倍に するために,窓長の最大$\pm$0.5ms(約0.0625ms刻み,計17種類)に対して離散フー リエ変換を行い,振幅が最も0に近い音節開始位置を選択することで誤差の修正 を試みた.

提案方法を用いて合成音声を作成し,音声品質を調査する.音声品質を評価する ために,聴覚実験ではオピニオン評価実験と対比較実験を行った.実験に用いた 音声は,女性話者2名と男性話者2名である.

聴覚実験における対比較実験の結果において,女性話者の場合,提案方法で作成 した合成音声は,ATRラベルによる音節境界位置から作成した合成音声と比較 して平均76.0%,人手で音節境界位置の調整を行い作成した合成音声と比較して 50.6%の音声の品質が良いと判断された.また,男性話者の場合,提案方法で作 成した合成音声は,ATRラベルによる音節境界位置から作成した合成音声と比較 して平均55.5%,人手で音節境界位置の調整を行い作成した合成音声と比較して 39.7%の音声の品質が良いと判断された.

実験結果より,女性話者において,提案方法で作成した合成音声は人手で音節境 界位置の調整を行い作成した合成音声と同等の音声品質を得ることができた. 男性話者において,提案方法で作成した合成音声はATRラベルによる音節境界位 置から作成した合成音声より音声品質を向上させることができた.したがって, 本研究の有効性が証明された.



平成23年3月16日