next up previous contents
Next: Contents Up: 032006 波形接続型音声合成の文節への適用 Previous: 032006 波形接続型音声合成の文節への適用   Contents

概 要

音声合成の手法として近年注目されている波形接続方式は,大量の録音音声から音素や音節を単位とした音声素片を取り出し,接続することによって合成音声を作成する. 音節波形接続方式は信号処理せず接続することで,話者性と高い自然性を保てる特徴がある. 例えば,音節を単位とする音節波形接続方式では,固有名詞と普通名詞を対象に実験をした結果,実用的な品質が得られたことが報告されてる[1][2].また,普通名詞の場合には自然性向上のためにアクセント型が有効であることも報告されている[3].

そこで本研究では,文節発声でゆっくりと発話された音声を使用し,音節波形接続方式を文節に適用し,有効性を調査した.

音節波形接続型音声合成では基本的に信号処理を行わない. 加えて,文節は名詞に比べアクセントが複雑である. そのため,素片単位や適切な素片を選び出す方法などが非常に重要となる.

そこで,品質向上のために,従来の音節波形接続方式に音節選択の条件を2つ追加した. 1つ目として,接続部において不自然さの軽減のために,母音と撥音が連続する部分を連続母音として扱った. また2つ目として,条件を満たす素片の中から録音した時間帯が近い音声を選んで音声を作成した. そして,作成した合成音声の品質を調査した.

その結果,聴覚実験における合成音声の了解度は条件を追加していない場合が98.7%,条件を追加した場合が99.3%となった. これは自然音声の99.3%と比べても同程度の高い値となった. また,オピニオンスコアは条件を追加しないものが3.55であったのに対し,条件を追加した場合は3.83となった. そして,対比較実験においても条件を追加した音声としない音声では,60.7%が条件を追加した音声の方が自然だと判定され,条件を追加することが自然性の向上に有効であることが分かった.

一方,自然音声はオピニオンスコアが4.75,条件を追加した合成音声との対比較においても74.3%が自然音声の方が自然だと判定されており,自然性の面では合成音声は自然音声には及ばなかったが,高い品質の合成音声が作成可能であることが分かった.



Jin'ichi Murakami 2005-04-20