次へ: モーラ情報とピッチ周波数 上へ: 002015 モーラ情報を用いた音素ラベリング方式の検討 戻る: 002015 モーラ情報を用いた音素ラベリング方式の検討

はじめに

音声認識や音声合成などの音声情報処理の研究において，音素の境界位置を示す音素ラベリングデータは重要である．現在この音素ラベリングデータは，手作業で作成されており，作成には多大な時間と労力を必要としている．このような作業を軽減するため，大量の音声データを対象に自動的に音素ラベリングを行う自動ラベリングシステムが望まれている．

自動ラベリングの研究は，従来から多くの研究機関で行われている．HMM法とベイズ確率を用いた統計的・確率的モデルによる方法[3]，ルールベースを用いる手法[4]，知識処理に基づく方法[5]などが過去に報告されている．しかし，現段階の精度はまだ十分ではなく，さらに高い精度が要求されている．

現在の音声認識や音素ラベリングでは，特徴パラメータとしてフォルマント，つまりケプストラムの低次の項が利用される．しかし，ケプストラム分析をおこなった場合，ケプストラムの低次の項は，高次の項の影響を受けることが知られている．一方最近の特定話者の単語発話の研究において，単語のモーラ位置および単語のモーラ数が決まればピッチ周波数がほぼ決まることが知られている[6]. この関係を使用して，単語の音声合成において高い自然性を持った合成音声が得られることが確認されている．

本論文では、このピッチ周波数と単語のモ－ラ数および単語のモ－ラ位置の関係を使うことで，フォルマントにおけるピッチの影響を分離できると考えた．そして，この関係を使用して自動ラベリングを行えば，音素境界位置の精度は向上すると期待できる．この予想を検証するため，本研究では，まず，母音・促音・撥音を単語のモーラ数および単語のモーラ位置で分類して音素HMMの学習を行う．次に，この音素HMMを使用して単語の音素ラベリングデータを作成する．最後に，求められた音素境界位置と，人手によって付与された音素境界位置の差の標準偏差を調べる．この標準偏差を単語のモーラ数およびモーラ位置を使用したときと使用しないときで調べ，本手法の有効性を確認する．

平成14年2月22日