本研究では、ピッチ情報を使う方法として、モーラ情報を使用した。 特定話者の単語の発声において、単語のモーラ位置、モーラ数が決まれば単語に 関係なくピッチ周波数がほぼ決まることが知られている。 このことを使うことで、母音の音素ラベルをピッチ周波数によって分類することが 可能となる。 従来の単語音声認識では、音素ラベルはピッチ周波数に関係なく使われているこ とから、母音の音素ラベルをモーラ情報を用いて分類 し、学習をすることで単語音声認識の認識率は、向上すると推定される。
本手法の有効性を調べるため、モーラ情報を使用した場合と使用しない場合につ いて、評価実験を行った。
単語音声認識を行うツールとしてHTKを使用し、 データベースには、ATRの単語発声デー タベース(Aset、5240単語)を使用した。実験には2つのデータベース(話者A(MAU)、話 者B(MMY))を使って、それぞれのデータベースで実験を行った。 評価方法は、認識結果から単語音声認識の誤り率を計算して、これを評価基準とした。
実験結果はモーラ情報を使用することで話者Aの場合、4.02%(102/2535)から 3.08%(78/2535)に、話者Bの場合、5.92%(151/2549)から5.34%(136/2549)に 誤り率が低下した。
よって単語のモーラ数、モーラ位置ごとに母音の音素記号を分類して、学習を 行い、そのモデルを使って単語音声認識を行うことで認識率のの向上がみられ、 本手法の有効性が認められた。