本論文では、次の仮説を立てることで人間が再検聴するファイルの数の削減を 行なった。
この仮説に従い、ラベルと音声データが一致したファイルの人手による再検聴 は行なわない。しかし、大規模な録音データベースでは認識語彙数は数十万件 になる。そのため、多くのファイルが誤認識されるため再検聴の数の削減の効 果は少ない。そこで次の仮説を加えた。
この仮説に従って、単語認識の語彙は、再検聴する音声データの発話リストの 前後件のラベルとした。したがって認識語彙数は単語になる。
図1にのときの認識語彙を示す。この図ではファイ ル番号4の音声データを再検聴するときの様子を示している。単語認識の語彙 は「大阪、埼玉、名古屋、静岡、神戸」の5件である。そして「名古屋」以外 が認識された場合、音声データは誤っている可能性があると見なして、人手に よる再検聴を行なう。