次へ: 文献目録
上へ: main
戻る: 評価試験結果
大量の単語音声を同一話者の音声で出力する方法として,
音声出力が必要な単語の一部のみを録音し,
録音した単語音声から
音節種類,前後音素環境,モーラ位置,モーラ数に基づいて
音節波形を切りだして接続することで,
録音していない単語の音声を合成する方法を提案した.
モーラの日本の地名 105,000 件を
合成対象として録音すべき地名の件数を
調査したところ, 17,000 件の録音で
合成対象全体をカバーできることが分かった.
また,特に5モーラ語について合成実験および
評価試験を行った.
自然音声と比較すると若干音質は落ちるものの
了解度の高い合成音声が得られた.
今後の課題として,以下のことが挙げられる.
- 音節部品を統合することにより,更に録音件数を削減すること.
具体的には前後音素環境に基づいて音響的特徴が似ているものを統合する,
語頭の音節などモーラ数が異なっても韻律的特徴が似ているものを統合する,
などの方法が考えられる.
- 音節部品選択時に
候補が複数あった場合の選択パラメータを検討すること.
特に有声音の接続部分において,
ピッチ周波数やLPC係数をパラメータに加えることで,
音質の悪いサンプルを減らすことができると思われる.
また将来的には,7モーラ以上の単語の合成方法の検討や,
ガイダンス文に合成音声を埋め込んで
違和感が軽減されたかどうか確認する試験が
必要である.
本研究の目的のように,
大量の単語音声をガイダンス文に埋め込んで
情報提供サービスに利用する領域では,
番号案内の他にも,
住所,氏名,製品名等を確認する必要のある
カスタマケアサービス,
交差点名,道路名等を用いたカーナビゲーションなど様々な応用が考えられ,
本方式の適用分野は大きいと考えられる.
Jin'ichi Murakami
平成13年10月1日