一般に音声合成においては,韻律の扱いは困難である.韻律を扱う場合,録音 音声および出力音声の周波数が必要となる.しかし,正確な周波数 を直接推定することは困難である.実際にはToBIモデルや藤崎モデルなどが利 用されている.また,最近ではHMMを用いる研究も行われている [5][6].
しかし,音声合成の対象として地名などの固有名詞を選んだ場合,固有名詞で は,アクセント型がほぼ一意に決まる.そのため周波数と単語のモーラ 位置と単語のモーラ長(以後モーラ情報)の依存関係を効果的に利用すること が可能である[2].そして,このモーラ情報は音素ラベリング [11]や音声認識[12][13]などの分野において 効果があることが報告されている.
一般的な普通名詞では「雨」と「飴」のように同音異義語が多数現れるため, モーラ情報を考慮しただけでは不適切な音節素片が選択される場合がある.そ こで,音節素片の選択においてモーラ情報に加えてアクセント型を加えること で,非常に自然性の高い合成音声が得られることが示されている [4].
そこで本研究では,文節を対象とした場合に音節素片の選択にモーラ情報とア クセントを考慮することで,どの程度の合成音声の品質が得られるかを調査す る.なお,文節のアクセント型については,NHK日本語発音アクセント辞典 [14] を利用する.