音節部品を統合することにより,更に録音件数を削減することを考慮する必要 がある.
具体的には語頭用ののように地名のモーラ数が異なっても 韻律の特徴があまり変わらない音節部品や, と のように音響的特徴が似ている音節部品は一つの種 類にまとめることで,録音件数はさらに削減できると考えている.
本論文では,音節部品は種類ごとに1つずつ準備した.しかし,通常,同一種 類の音節部品の候補は複数得られる.今後,複数の候補の中から音節部品を選 択する方法を検討する必要がある.例えば,音節部品の接続部分において,ピッ チ周波数やケプストラム係数やパワーをパラメータに加えることで,音質の悪 いサンプルを減らし,より高品質の音声が得られると考えている.
本論文において述べた音声合成方法は,地名などの固有名詞において特に有効 であると思われる.また,普通名詞においても,ATRのAsetのデータを使用す ることで,有効性が認められた.今後は,この方法が,どこまで汎用性がある のか実験を行って行きたい.
なお,日本語の名詞において,アクセント型が異なると,意味が異なる単語の多くは, 2モーラ単語である.(例えは「雨」と「飴」,「橋」と「箸」.)また,6モー ラ以上の名詞は,名詞連続複合語である場合が多い.これらは,名詞の間に,あ る程度長いポーズを間に入れると,アクセント核の移動[11]を考慮しなくて すむため,短い単語に分割できる.以上のことから,本論文で用いた方法は,基 本的に3モーラ以上の名詞の合成音声に利用できる可能性があると考えている.
本研究を行うにあたり,国際通信基礎研究所(ATR)音声通信研究所の Nick Campbell 氏と,KDD研究所の樋口宜男氏には,実験の方法に関してコメントを 頂きました.NTTサイバースペース研究所の浅野久子氏と水野秀之氏には,合 成方法に対して討論して頂きました.鳥取大学大学院工学研究科(博士前期) 知能情報工学専攻2年の前田智広氏と鳥取大学工学部知能情報学科4年の石田隆 浩氏には実験を手伝ってもらいました.これらの方に深く感謝致します.
また,作成したサンプルの合成音声は,以下のURL に置いてあります.