提案手法では,合成に必要な音節素片の,前後音素環境と,音節素片が属する 単語のモーラ数と,音節素片の単語中のモーラ位置と,音節素片が属する単語 のアクセントごとに異なる音節素片を,予め録音しておく必要がある.そこで まず,日本語の普通名詞における音節素片の種類数 とそれを全てカバーするのに必要 な録音件数 を調査した.
NHK日本語発音アクセント辞典には,101,700 単語が掲載されている.この単 語を全て提案手法で合成すると仮定する.
この101,700単語において出現する音節素片の種類を調べたところ,384,845個 であった.
これらの音節素片が全て含まれるように,NHK日本語発音アクセント辞典の単語を 選出すると,43,000単語の発話が必要であった.
したがってNHK日本語発音アクセント辞典に掲載されている単語の42.2% を収 録する必要がある.
なお,43,000単語は,単語の選択方法により,より少なくできる可能性が高い.
現在,規則音声合成では,録音した録音データに対して決定木をもちいたクラ スタリングを行うことで,存在しない音素素片をデータベース上に存在する音 素素片に割り当てている[18].これと同様な手法を音節接続型音声合 成において利用できる.この場合,すべての音声を合成することが可能である が,合成音声の品質は低下する.今後,決定木をもちいた場合の録音音声のデー タ量と得られる合成音声の品質の関係を調べていきたい.