録音された単語の声の高さは、基本的にbitch周波数に依存すると思われる。 従って、声の高さを揃えた録音音声データベースを作成するには、各単語の平 均pitch周波数を一定にすれば良いと考えられる。しかし精度の高いpitch周波 数を計算することは困難である。また発話内容によって平均pitch周波数が異 なる可能性がある。
一方、録音データベースを作成する場合、同一のナレータでも発声する日時に よって声の高さが異なる。しかし同一時間帯に録音された音声は、同じ声の高 さであることが多い。
そこで、同一時間帯に発声されたN個のデータを1グループとし、グループごと にサンプリング周波数を変えて平均pitch周波数を一定にすることで、声の高 さが揃った録音音声データベースを作成できると考えた。