next up previous
次へ: 今後の課題 上へ: main 戻る: 考察

まとめ

本論文では,大量の固有名詞を同一話者の音声で出力する方法として,音声出 力が必要な単語の一部のみを録音し,録音した単語音声から以下のパラメータ に基づいて音節波形を切りだして接続することで,録音していない単語の音声 を合成する方法を提案した.

1
単語のモーラ数
2
単語内のモーラ位置
3
前後の音素環境

録音すべき地名の件数を調査したところ, $4\sim 6$ モーラの日本の地名 105,000 件を合成対象とした場合,約17,000 件の録音で合成対象全体をカバー できることが分かった.

また,5モーラ語においてナレータ2名で音声を合成して評価試験を行った.そ の結果,平均の単語了解度は98.5%,オピニオン評価は4.08が得られた.一方, 自然音声では,単語了解度は98.8%,オピニオン評価は4.89であった.また, 市販の合成音声は,単語了解度は92.6%,オピニオン評価は1.74であった.

したがって,自然音声と比較すると若干音質は落ちるものの,市販の合成音声 と比較すると,極めて了解度が良く自然性が高い合成音声が得られることが示 された.


平成14年9月3日