next up previous
次へ: モーラ情報とピッチ周波数 上へ: 002015 モーラ情報を用いた音素ラベリング方式の検討 戻る: 002015 モーラ情報を用いた音素ラベリング方式の検討

はじめに


音声認識や音声合成などの音声情報処理の研究において,音素の境界位置を示 す音素ラベリングデータは重要である.現在この音素ラベリングデータは,手 作業で作成されており,作成には多大な時間と労力を必要としている.このよ うな作業を軽減するため,大量の音声データを対象に自動的に音素ラベリング を行う自動ラベリングシステムが望まれている.

自動ラベリングの研究は,従来から多くの研究機関で行われている.HMM法と ベイズ確率を用いた統計的・確率的モデルによる方法[3],ルー ルベースを用いる手法[4],知識処理に基づく方法[5]な どが過去に報告されている.しかし,現段階の精度はまだ十分ではなく,さら に高い精度が要求されている.

現在の音声認識や音素ラベリングでは,特徴パラメータとしてフォルマント, つまりケプストラムの低次の項が利用される.しかし,ケプストラム分析をお こなった場合,ケプストラムの低次の項は,高次の項の影響を受けることが知 られている. 一方最近の特定話者の単語発話の研究において,単 語のモーラ位置および単語のモーラ数が決まればピッチ周波数がほぼ決まるこ とが知られている[6]. この関係を使用して,単語の音声合成におい て高い自然性を持った合成音声が得られることが確認されている.

本論文では、このピッチ周波数と単語のモ−ラ数および単語のモ−ラ位置の関 係を使うことで,フォルマントにおけるピッチの影響を分離できると考えた. そして,この関係を使用して自動ラベリングを行えば,音素境界位置の精度は 向上すると期待できる.この予想を検証するため,本研究では,まず,母音・促 音・撥音を単語のモーラ数および単語のモーラ位置で分類して音素HMMの学習 を行う.次に,この音素HMMを使用して単語の音素ラベリングデータを作成す る.最後に,求められた音素境界位置と,人手によって付与された音素境界位 置の差の標準偏差を調べる.この標準偏差を単語のモーラ数およびモーラ位置 を使用したときと使用しないときで調べ,本手法の有効性を確認する.


平成14年2月22日