HMMによる音素認識率から見た自由発話の音声の崩れ

次へ: 自由発話の音響的な特徴の考察 上へ: 自由発話の音響的な特徴 戻る: 融合ラベルの付与率から見た自由発話の音声の崩れ

HMMによる音素認識率から見た自由発話の音声の崩れ

従来の音声認識アルゴリズムにおける認識率の各発話様式の差を調べるために音素の認識実験を行なった。ただし、学習データとテストデータにおいて融合ラベルを付与された音素は実験から除いた。認識アルゴリズムには、混合連続分布型HMMを用い、学習データには、単語発声から視察によって切り出した音素を使用した。その他の実験条件を表3に示す。実験は、同一話者の単語発声と、文節単位の朗読発声と、文単位の朗読発声、および自由発話の、４種類のデータで行なった。

各発声様式における音素認識誤り率を図 3に、各音素毎の音素認識率を表4 に示す。この結果から次のような傾向が見られる。

単語発声、文節単位の朗読発声、文単位の朗読発声、自由発話の順で音素認識率が低下している。
自由発話と朗読発話の認識率の個人差がかなりあると思われる。アナウンサーMTKは自由発話の音素認識率が朗読発話の音素認識と比較して約60%程度しか増加しないのに対し、アナウンサーFKNでは約140%も増加している。
自由発話では、/i/や/g/の音素の認識率の低下が著しい。
/k/,/s/の認識率は、発話様式に、あまり差がない。

**表 3:** 音素認識の実験条件
認識対象	32音素
サンプリング周波数	12kHz
話者	男性アナウンサー
学習データ	単語音声
音響パラメータ	log power + 16次LPCcepstrum
	+ $\Delta$ log power + 16次 $\Delta$ cepstrum
フレーム窓長	20ms
フレーム周期	5ms
音素モデル	3state 10 mixture Gaussian
	continuous HMM

**図 3:** 発話様式の違いによる音素認識誤り率の変化
$\begin{figure}\begin{center} \fbox{\epsfile{file=figure3.ps,width=70mm}}\end{center}\end{figure}$

Jin'ichi Murakami 平成13年10月5日