Next: Contents Up: No Title Previous: No Title

概要

音声認識・合成システムなどの音声情報処理システムの研究において、音素の境界位置を示す音素ラベリングデータは重要である。現在、音素ラベリンデータは手作業で作成されている。この作業はハンドラベリングと言われており、多大な時間を必要とする。このような負担を軽減するため、大量の音声データベースを対象に、自動的に音素ラベリングを行うシステムが望まれている。しかしながら、現段階の自動音素ラベリングの精度は不十分であり、さらに高い精度が求められている。現在の音素ラベリングでは、特徴パラメータとしてケプストラム、メルケプストラムなどが使われている。音声には、このほかにもピッチ情報があるが、通常使用されていない。そこで本研究では、このピッチ情報に着目した音素ラベリング方法を検討した。本研究では、ピッチ情報を使う方法として、モーラ情報を使用した。特定話者の単語の発声において、単語のモーラ位置、モーラ数が決まれば単語に関係なくピッチ周波数がほぼ決まることが知られており、このことを使うことで、母音の音素記号をピッチ周波数によって分類することが可能となる。従来の音素ラベリングでは、音素記号はピッチ周波数に関係なく使われていることから、母音の音素記号をモーラ情報を用いて分類(ピッチ情報を併用して分類)して、学習、セグメンテーションを行うことで音素境界位置の精度は、向上すると推定される。本手法の有効性を調べるため、モーラ情報を使用した場合と使用しない場合について、評価実験を行った。実験条件を表1に示す。音素ラベリングを行うツールとしてHTKを使用し、データベースには、ATRの単語発声データベース(Aset、5240単語)を使用した。実験には2つのデータベース(話者A、話者B)を使って、それぞれのデータベースで実験を行った。評価方法は、人手によって付けられた音素境界位置と、実験で求められた音素境界位置を比較し標準偏差を計算して、これを評価基準とした。実験結果はモーラ情報を使用することで話者Aの場合、約4ms、話者Bの場合、約 2ms精度が向上した。よって単語のモーラ数、モーラ位置ごとに母音の音素記号を分類して、学習を行い、そのモデルを使ってセグメンテーションすることで精度の向上がみられ、本手法の有効性が認められた。今後の課題として、連続母音のセグメンテーションが上げられる。連続母音のセグメンテーションは曖昧で難しく今回の実験でも精度向上の妨げとなった。

maeta tomohiro
2000-03-16