本論文では、録音音声の音量(平均パワー)を一定にするアルゴリズム を提案し、その実験結果について報告する。
大量の音声を録音した場合、話者が同じでも発声する時間によって音声 の平均パワーに違いがでる。しかし、音声を利用したサービスでは録音 された音声を組み合わせてガイダンスを作り出すため、音量の違いは違 和感になる。
天気予報などのサービスでは語彙が少ないため、単語ごとに人間による 平均パワーの正規化が可能である。しかし、録音単語数が多いサービス (例えば、PB電話機を利用した電話番号案内実験システム [1]では住所18万件、姓名18万件を録音)では、自動的に 録音音声の平均パワーを一定にする、録音音声パワー正規化技術が必要 になる。