従来研究である音響クラスタリング法において,言語情報の条件を緩和すること で,理論上全ての音声が作成可能であると示された.しかし,音声品質の非常に 悪い音声が生成されてしまう場合がある.その原因の1つとしてMFCCの距離尺度 が,音声品質に悪影響を与える可能性があると考えられる.
そこで本研究では,MFCCの距離尺度の代わりに,言語情報と人間の聴覚的な知識 (ルール)を用いて木に基づくクラスタリングを行い,音節波形接続型音声合成 法に適用する.本研究では上記の手法を``言語クラスタリング法''と呼ぶ.図 17に合成音声「財務(za/i/mu)」を作成する場合の``言語クラス タリング法''における流れを示す.また以下に図17の詳細な手 順を示す,
クラスタ名 | N_5 | za_3 |
a-N0202001+pau | pau-za0201011+i | |
クラスタ内の | a-N0303001+pau | pau-za0401011+i |
音節素片 | o-N0303001+pau | pau-za0501011+i |
u-N0202001+pau | pau-za0601011+i | |
u-N0303001+pau |
上記手順3,4,5を,作成する合成音声の各モーラ位置に対して行い,手順5で選択 した各音節素片を接続することで合成音声を作成する.