Next: Contents
Up: No Title
Previous: No Title
音声認識・合成システムなどの音声情報処理システムの研究において、音素の境
界位置を示す音素ラベリングデータは重要である。
現在、音素ラベリンデータは手作業で作成されている。
この作業はハンドラベリングと言われており、多大な時間を必要とする。
このような負担を軽減するため、大量の音声デー
タベースを対象に、自動的に音素ラベリングを行うシステムが望まれている。
しかしながら、現段階の自動音素ラベリングの精度は不十分であり、さらに高い
精度が求められている。
現在の音素ラベリングでは、特徴パラメータとしてケプストラム、メルケプスト
ラムなどが使われている。
音声には、このほかにもピッチ情報があるが、通常使用されていない。
そこで本研究では、このピッチ情報に着目した音素ラベリング方
法を検討した。
本研究では、ピッチ情報を使う方法として、モーラ情報を使用した。
特定話者の単語の発声において、単語のモーラ位置、モーラ数が決まれば単語に
関係なくピッチ周波数がほぼ決まることが知られており、
このことを使うことで、母音の音素記号をピッチ周波数によって分類することが
可能となる。
従来の音素ラベリングでは、音素記号はピッチ周波数に関係なく使われているこ
とから、母音の音素記号をモーラ情報を用いて分類(ピッチ情報を併用して
分類)して、学習、セグメンテーションを行うことで音素境界位置の精度
は、向上すると推定される。
本手法の有効性を調べるため、モーラ情報を使用した場合と使用しない場合につ
いて、評価実験を行った。
実験条件を表1に示す。音素ラベリングを行うツールとしてHTKを使用し、
データベースには、ATRの単語発声デー
タベース(Aset、5240単語)を使用した。実験には2つのデータベース(話者A、話
者B)を使って、それぞれのデータベースで実験を行った。
評価方法は、人手によって付けられた音素境界位置と、実験で求められた音素境
界位置を比較し標準偏差を計算して、これを評価基準とした。
実験結果はモーラ情報を使用することで話者Aの場合、約4ms、話者Bの場合、約
2ms精度が向上した。
よって単語のモーラ数、モーラ位置ごとに母音の音素記号を分類して、学習を行い、その
モデルを使ってセグメンテーションすることで精度の向上がみられ、本手法の有効性が
認められた。今後の課題として、連続母音のセグメンテーションが上げられる。
連続母音のセグメンテーションは曖昧で難しく今回の実験でも精度向上の妨げと
なった。
maeta tomohiro
2000-03-16