次へ: 一般名詞におけるアクセントとモーラ情報とピッチ周波数の関係 上へ: main2 戻る: main2

はじめに

音声認識や音声合成などの音声情報処理の研究において，音素の境界位置を示す音素ラベリングデータは重要である．現在この音素ラベリングデータは，手作業で作成されており，作成には多大な時間と労力を必要としている．このような作業を軽減するため，大量の音声データを対象に自動的に音素ラベリングを行う自動ラベリングシステムが望まれている．

自動ラベリングの研究は，従来から多くの研究機関で行われている．HMM法とベイズ確率を用いた統計的・確率的モデルによる方法[1]，ルールベースを用いる手法[2]，知識処理に基づく方法[3]などが過去に報告されている．しかし，現段階の精度はまだ十分ではなく，さらに高い精度が要求されている．

ところで，音声信号は大きく２つの情報で構成されている．１つはフォルマントで舌や喉の動きなどを表し音韻情報を多く含む．もう１つはピッチで声帯の動きを表し個人情報や感情の情報を多く含む．この２つの情報を分離するためにケプストラム分析が良く利用される．この分析方法では，低次の項にフォルマントが，高次の項にピッチが抽出される．

現在の音声認識や音素ラベリングでは，特徴パラメータとしてフォルマント，つまりケプストラムの低次の項が利用される．しかし，ケプストラム分析をおこなった場合，ケプストラムの低次の項は，高次の項の影響を受けることが知られている．つまり，フォルマントを計算するときに，ピッチが影響することが知られている．一方最近の研究において，特定話者の単語発話において，単語のモーラ位置および単語のモーラ数が決まればピッチ周波数がほぼ決まることが知られている[4]. この関係を使用して，単語の音声合成において高い自然性を持った合成音声が得られることが確認されている．

本論文では、このピッチ周波数と単語のモ－ラ数および単語のモ－ラ位置の関係を使うことで，フォルマントにおけるピッチの影響を分離できると仮定した．そして，この関係を使用して自動ラベリングを行えば，音素境界位置の精度は向上すると予想した．この予想を検証するため，本研究では，まず，母音・促音・撥音を単語のモーラ数および単語のモーラ位置で分類して音素HMMの学習を行う．次に，この音素HMMを使用して単語の音素ラベリングデータを作成する．最後に，求められた音素境界位置と，人手によって付与された音素境界位置の差の標準偏差を調べる．この標準偏差を単語のモーラ数およびモーラ位置を使用したときと使用しないときで調べ，本手法の有効性を確認する．

平成15年12月22日