現在,カーナビゲーションシステムや電車の車内アナウンスなどのように,音声 ガイダンスを利用したシステムやサービスが様々な場面において利用されている. この音声ガイダンスの作成には,録音編集方式が広く使われている.録音編集方 式は,ユーザに依存しない比較的長い文音声(以下,固定部)と,ユーザに依存す る比較的短い単語・文音節音声(以下,可変部)を別々に録音しておき,必要に応 じて組み合わせることで,目的となる出力音声を作成する方法である.
例えば,「次の交差点を左折です.」という音声ガイダンスを作成する場合, 「次の○○左折です.」という固定部に,「交差点を」という可変部を挿入して 作成する.
録音編集方式を用いた音声合成においては,可変部と固定部を接続した場合の違 和感を軽減するために,一般に同一話者の音声が必要となる.可変部と固定部を 分離して録音することにより,必要となるすべての音声を録音する場合に比べて 話者に対する負担は若干軽減されるが,可変部に挿入する単語が増大した場合, 同一話者から全ての音声を録音することは困難となる.そこで,固定部は録音音 声,可変部は合成音声を用いる方式がとられている.その合成音声を作成する方 法の1つとして,音節波形接続方式[1]が提案されている.
音節波形接続方式は,音響的なパラメータを使用せず,言語的なパラメータのみ で合成音声を作成する方式であり,信号処理を加えないで接続することにより, 自然性の高い合成音声を作成できる. この方式の過去の研究として,固有名詞,普通名詞,文節(短文節),フレーズ (長文節)を対象として行われた.その結果,品質の高い合成音声が得られたこと が報告されている.
節波形接続型音声合成において,音声波形の音節開始位置・終了位置は,音節境 界位置が記載されたラベルを利用している.ラベルは人手で作成されているが, 波形接続用ではないため音節境界位置の精度が低い.そのため,音声合成時に波 形の接続点が不連続になり,音声品質が劣化する.そこで波形を滑らかに接続す るように波形接続時に人手で音節開始位置・終了位置に修正を加えている.しか し,この修正作業にはコストがかかる[2].
そこで,音節の精密な開始位置・終了位置を自動的に決める方法を提案した [3].具体的には,音節素片のパワーが最大となる周波数を求め,そ の初期位相が``-''となる時間を音節開始位置にする. しかし,離散フーリェ変換の窓長を音節素片の音節開始位置における1周期の整 数倍にしなければ,初期位相に誤差が生じることがわかった.
本研究では,離散フーリエ変換の窓長を音節素片の開始時から1周期の整数倍に するために,窓長の最大0.5ms(約0.0625ms刻み,計17種類)に対して離散フー リエ変換を行い,振幅が最も0に近い音節開始位置を選択することで誤差の修正 を試みた.
提案方法を用いて合成音声を作成し,音声品質を調査する.音声品質を評価する ために,聴覚実験ではオピニオン評価実験と対比較実験を行った.実験に用いた 音声は,女性話者2名と男性話者2名である.
聴覚実験における対比較実験の結果において,女性話者の場合,提案方法で作成 した合成音声は,ATRラベルによる音節境界位置から作成した合成音声と比較 して平均76.0%,人手で音節境界位置の調整を行い作成した合成音声と比較して 50.6%の音声の品質が良いと判断された.また,男性話者の場合,提案方法で作 成した合成音声は,ATRラベルによる音節境界位置から作成した合成音声と比較 して平均55.5%,人手で音節境界位置の調整を行い作成した合成音声と比較して 39.7%の音声の品質が良いと判断された.
実験結果より,女性話者において,提案方法で作成した合成音声は人手で音節境 界位置の調整を行い作成した合成音声と同等の音声品質を得ることができた. 男性話者において,提案方法で作成した合成音声はATRラベルによる音節境界位 置から作成した合成音声より音声品質を向上させることができた.したがって, 本研究の有効性が証明された.
以降,第2章で音節波形接続型音声合成の説明をする.そし て第3章で位相を用いた音節境界位置の修正方法について説明を 行い,第4章で従来用いられている方法について述べる.第 5章で実験方法について説明し,第6章で実験結果を示 し,第7章で実験結果に対する考察を章で述べる.