基本的な考え方

次へ: pitch分布 上へ: pitch正規化方法 戻る: pitch正規化方法

基本的な考え方

録音された単語の声の高さは、基本的にbitch周波数に依存すると思われる。従って、声の高さを揃えた録音音声データベースを作成するには、各単語の平均pitch周波数を一定にすれば良いと考えられる。しかし精度の高いpitch周波数を計算することは困難である。また発話内容によって平均pitch周波数が異なる可能性がある。

一方、録音データベースを作成する場合、同一のナレータでも発声する日時によって声の高さが異なる。しかし同一時間帯に録音された音声は、同じ声の高さであることが多い。

そこで、同一時間帯に発声されたN個のデータを1グループとし、グループごとにサンプリング周波数を変えて平均pitch周波数を一定にすることで、声の高さが揃った録音音声データベースを作成できると考えた。

平成16年8月27日