next up previous
次へ: 謝辞 上へ: main1 戻る: 自由発話認識の問題点

まとめ

本論文では、初めに単語trigramとViterbiサーチを基本とする文音声 認識アルゴリズムを述べた。次に計算量およびメモリ量を削減した アルゴリズムを提案し、その実験結果を報告した。実験の結果、 朗読発話の不特定話者認識のtext-closed data において、28.0%の文認識率が得られた。

次にポーズを考慮したアルゴリズムについて報告した。ポーズは音 声データのあらゆる場所に出現する可能性がある。しかし、言語モ デルではこれに対応しきれないため、ポーズの区間で誤認識が起きやす い。この改良されたアルゴリズムでは、各時刻・各状態において最 尤の単語列を知ることができる。この特徴を生かして、音響モデル ではポーズを認識しながら言語モデルではポーズをスキップするこ とにより、ポーズによる誤認識を少なくすることができる。また、 テストデータの先頭の無音区間を利用して、ポーズのHMMを再学習 した。これらのポーズの対策をすることにより83.9%の文 認識率が得られた。

最後に自由発話の認識を行なった。自由発話に特有な冗長語は音声 のあらゆる場所に出現する可能性があるという点でポーズと似た性 質がある。そこでポーズと同様な処理をすることにより、冗長語が ある音声データでも認識が可能になる。自由発話の認識実験では冗 長語処理をすることにより文認識率が14.1%から34.4%に向上し、 このアルゴリズムの有効性が示された。



Jin'ichi Murakami 平成13年10月4日