あらまし
人間同士のコミュニケーションでは、「あのー」、「えーと」など に代表される冗長語や、言い淀みや言い誤りおよび言い直しなどが 頻繁に出現する。このような音声でも認識できる、いわゆる自由発 話の音声認識が、今後の重要な研究課題になると思われる。本論文 では、初めに単語trigramとViterbiサーチ(one-pass DP)を基本とする文音声認識ア ルゴリズムを述べる。次にメモリ量や計算量を削減したアルゴリズ ムについて述べる。この改善は、ビームサーチやViterbiの経路計 算の改良などをすることにより得られた。この改良により、このア ルゴリズムでは、各時刻・各状態において最尤の単語列を知ること ができる。この特徴を生かして、音響モデルでは冗長語を認識しな がら言語モデルでは冗長語をスキップすることにより、冗長語を含 んだ音声を認識することができる。最後に自由発話の認識を行なっ た。その結果、このアルゴリズムの有効性が示された。
キーワード 2重連鎖確率モデル one-pass DP 自由発話認識 冗長語
Abstract
This paper describes an effective recognition algorithm using word trigram models directly and a procedure of filled pauses in spontaneous speech. This recognition algorithm greatly reduces the memory requirements and computational costs by employing two techniques: beam search and an improved Viterbi search. With these methods, we can perform execution in a 15M byte space for about a 1500-word vocabulary. Next, focusing on spontaneous speech recognition, we look at a filled pause procedure to handle the many filled pauses in spontaneous speech. Even though the proposed method employs a simple procedure, we obtain a 64.4% sentence recognition rate for semi spontaneous speech and a 34.4% for spontaneous speech.
key words Word trigram model one-pass DP spontaneous speech recognition filled pauses