next up previous
次へ: モーラ情報とピッチ情報 上へ: tottori 戻る: tottori

はじめに

音声認識、合成システムなどの音声情報処理の研究において、音素の境界位置を示 す音素ラベリングデータは重要である。 現在この音素ラベリングデータは、手作業で作成されており、作成に は多大な時間と労力を必要としている。このような作業を軽減するため、大 量の音声データを対象に自動的に音素ラベリングを行うシステムが望まれている。

音素セグメンテーションの研究は、HMM法とベイズ確率を用いた統計的・確率的 モデルによる方法[1]、ルールベースを用いる手法[2]、知識処理に基づく方法 [3]などが報告がされている。 しかし、現段階の精度は不十分でありさらに高い精度が望まれている。

ところで、最近の研究でピッチ周波数と単語のモーラ位置および単語のモーラ数の間に 依存関係が存在することが知られている。この依存関係を使用することにより、 単語の音声合成において、高い品質の合成音を作成できることが確認されている [4]。

現在の音素ラベリングでは、特徴パラメータとしてケプストラムやメルケプスト ラムが使用されている。 しかし、ケプストラムはピッチ周波数の影響を受ける。 そこで、ケプストラムにおけるピッチ周波数の影響を、 ピッチ周波数と単語のモ−ラ数および単語のモ−ラ位置の依存関係を使い分離できると 考える。 この依存関係を使用して音素ラベリングを行えば、音素境界位置の精度 は向上すると推定される。

本研究では、母音・促音・撥音を単語のモーラ数および単語のモーラ位 置を使って分類して、音素HMMの学習を行い、この音素HMMを使用して単語の音素 ラベリングデータを作成した場合の音素境界位置の精度向上効果を調べる。



平成13年9月6日