自動ラベリングの研究は,従来から多くの研究機関で行われている.HMM法と ベイズ確率を用いた統計的・確率的モデルによる方法[3],ルー ルベースを用いる手法[4],知識処理に基づく方法[5]な どが過去に報告されている.しかし,現段階の精度はまだ十分ではなく,さら に高い精度が要求されている.
現在の音声認識や音素ラベリングでは,特徴パラメータとしてフォルマント, つまりケプストラムの低次の項が利用される.しかし,ケプストラム分析をお こなった場合,ケプストラムの低次の項は,高次の項の影響を受けることが知 られている. 一方最近の特定話者の単語発話の研究において,単 語のモーラ位置および単語のモーラ数が決まればピッチ周波数がほぼ決まるこ とが知られている[6]. この関係を使用して,単語の音声合成におい て高い自然性を持った合成音声が得られることが確認されている.
本論文では、このピッチ周波数と単語のモ−ラ数および単語のモ−ラ位置の関
係を使うことで,フォルマントにおけるピッチの影響を分離できると考えた.
そして,この関係を使用して自動ラベリングを行えば,音素境界位置の精度は
向上すると期待できる.この予想を検証するため,本研究では,まず,母音・促
音・撥音を単語のモーラ数および単語のモーラ位置で分類して音素HMMの学習
を行う.次に,この音素HMMを使用して単語の音素ラベリングデータを作成す
る.最後に,求められた音素境界位置と,人手によって付与された音素境界位
置の差の標準偏差を調べる.この標準偏差を単語のモーラ数およびモーラ位置
を使用したときと使用しないときで調べ,本手法の有効性を確認する.