音声合成の手法として近年注目されている波形接続型音声合成は, 大量の録音音声から音素や音節を単位とした波形素片を取り出し, 接続することによって合成音声を作成する. 信号処理せず接続することで,話者性と高い自然性を保てる特徴がある. また,波形接続型音声合成を用いた単語音声合成において, 前後音素環境やモーラ情報などの付加的な情報を用いることで, 品質が向上することが知られている[1].
例えば,音節を単位とした音節波形接続方式[1]では, 地名を対象に実験した結果,実用的な品質が得られたことが報告されている. また,同様の手法を普通名詞に適用した場合も, 明瞭性の高い合成音声を作成できたことが示されているが, アクセント型のばらつきによる自然性劣化も指摘されている[2].
また,波形接続型音声合成では基本的に信号処理を行わないため, 素片単位や接続位置,最適な素片を選び出す方法なども非常に重要となる.
そこで本研究では,普通名詞を対象として,音素,または音節を素片単位とした場合に, アクセントを考慮することで合成音声の品質をどの程度改善できるかについて調査する. そして,波形接続型単語音声合成におけるアクセントの有効性および最適な素片単位について検証する.