next up previous contents
次へ: 音節波形接続型音声合成 上へ: honron4 戻る: 表一覧   目次

はじめに

現在,カーナビゲーションシステムや電車の車内アナウンスなどのように,音声 ガイダンスを利用したシステムやサービスが様々な場面において利用されている. この音声ガイダンスの作成には,録音編集方式が広く使われている.録音編集方 式は,ユーザーに依存しない比較的長い文音声(以下,固定部)と,ユーザーに依 存する比較的短い単語・文音節音声(以下,可変部)を別々に録音しておき,必要 に応じて組み合わせることで,目的となる出力音声を作成する方法である.

例えば,「次の交差点を左折です.」という音声ガイダンスを作成する場合, 「次の○○左折です.」という固定部に,「交差点を」という可変部を挿入して 作成する.

録音編集方式を用いた音声合成においては,可変部と固定部を接続した場合の違 和感を軽減するために,一般に同一話者の音声が必要となる.可変部と固定部を 分離して録音することにより,必要となるすべての音声を録音する場合に比べて 話者に対する負担は若干軽減されるが,可変部に挿入する単語が増大した場合, 同一話者から全ての音声を録音することは困難となる.そこで,固定部は録音音 声,可変部は合成音声を用いる方式がとられている.その合成音声を作成する方 法の1つとして,音節波形接続方式[1]が提案されている.

音節波形接続方式は,音響的なパラメータを使用せず,言語的なパラメータのみ で合成音声を作成する方式であり,信号処理を加えないで接続することにより, 自然性の高い合成音声を作成できる. この方式の過去の研究として,固有名詞,普通名詞,文節(短文節),フレーズ (長文節)を対象として行われた.その結果,品質の高い合成音声が得られたこと が報告されている.

過去の研究音節波形接続型音声合成において,音節境界位置が記載されているラ ベルを元に音節素片を切り出しているが,接続時に波形が滑らかに接続するよう に人手で調整しなければならない.この原因は,ラベルが波形接続用ではないた め,波形が滑らかに接続できる位置に正確に記載されていないという理由である.

そこで,本研究では波形接続用に音節境界位置を決定する自動化方法を提案する. 提案方法は,音節境界位置を音節素片のパワーが最大となる周波数の初期位相が 0となる位置とする.提案方法を行うことで音声波形の傾きが0となる音節境界位 置で音節素片を接続する.提案方法により,音節境界位置を波形が滑らかに接続 する位置に決めることができる.

そして,提案方法を用いて合成音声を作成し,音声品質を調査する.音声品質を 評価するために,聴覚実験ではオピニオン評価実験と対比較実験を行った.その 結果,聴覚実験におけるオピニオン評価において,提案方法で作成した合成音声 は3.95という結果が得られた.これに対し,従来のラベルによる音節境界位置か ら作成した合成音声は3.65であり,人手で音節境界位置の調整を行い作成した合 成音声は4.19であった.対比較実験の結果では,提案方法で作成した合成音声は, 従来のラベルによる音節境界位置から作成した合成音声と比較して64.4%,人手 で音節境界位置の調整を行い作成した合成音声と比較して34.8%の音声が良いと 判断された.実験結果より,提案方法で作成した合成音声は従来のラベルによる 音節境界位置から作成した合成音声より高い音声品質が得られた.

以降,2章で音節波形接続型音声合成の説明をする.そして3章で位相を用いた音 節境界位置の修正方法について説明を行い,4章で実験方法について説明する. 5章で実験結果を示し,実験結果に対する考察を6章で述べる.



平成21年5月25日