波形接続型音声合成では,接続部の違和感の発生が音声の自然性に大きく影響す る.しかし,ラベルから得た音節境界位置で音節素片を切り出し,そのまま接続 すると接続部に違和感が生じる.図2.4に例を示す. 図2.4は例として「診察 /shi/N/sa/tsu/」のshi/N間の 接続部を示している.縦線部が接続部となっており,接続部より左部の波形が 「真空 /shi/N/ku/u/」の「shi」の音節を用いて,右部の波形が「申請 /shi/N/se/i/」の「N」の音節を用いて作成されている.縦線部に歪みが生じて いることがわかる.
上記の問題があるため,ラベルから得た音節境界位置で切り出した音節素片を接 続する場合,2素片間の接続部を滑らかに接続する必要がある.以下に人手で修 正する方法を示す.
ラベルから得た素片開始時間と素片終了時間をもとに,振幅が負から正に変わる 部分を,波形が短くなる方向(開始時間は進む方向,終了時間は戻る方向)に探し, 音節素片を切り出す位置を修正する[1]. 図2.5は図2.4の波形を人手で修 正した結果を示している.「診断 /shi/N/sa/tsu/」のshi/N間の接続部を示し ている.縦線部で滑らかに接続していることがわかる.
しかし,大量の合成音声作成時に人手の修正を行うには非常にコストがかかる. 具体的には,人手で合成音声を作成する平均時間は,合成音声一つにつき約5分 である.