next up previous contents
次へ: ポーズのHMMの学習(音響モデルにおける処理) 上へ: ポーズの処理 戻る: ポーズの処理   目次


ポーズのスキップ(言語モデルにおける処理)

ポーズは、文節間に出現することが多いが、音声データのあらゆる場所に出現 する可能性がある[34]。そこで単語と単語の境界にポーズがあっ ても、誤認識が起き難いようにアルゴリズムを改良した。ここで使用したアル ゴリズムでは、各時刻・各状態において累積尤度が最大の単語列を知ることが できる。そこでポーズを1単語と考えて、ポーズに接続されたときの連鎖確率 値は 1.0にする。そしてポーズ以外の単語に接続されるときポーズをスキップ して trigramの連鎖確率値を計算する。例えば

「``東京都'' ``港区'' ``新橋'' $/pause/$ ``1 丁目''」

と発声されたとき、単語trigramの値を

$P$(`` 新橋''$\vert$``東京都'',``港区'') $\times 1.0\times$$P$(``1 丁目''$\vert$`` 港区'',``新橋'')

と計算する。なお、ポーズのHMMの尤度の学習には、学習データの 前後にある無音区間を利用した。

この改良したアルゴリズムを用いて認識実験を行なった。実験条件 は表4.5と同一である。この結果 を表4.8に載せる。このポーズのスキッ プにより、特定話者認識では、認識性能が向上した(66.7% $\rightarrow $ 71.6%)。また、不特定話者認識では、認識性能 が顕著に向上した(0.0% $\rightarrow $ 61.7%)。


表 4.8: 認識実験の結果(ポーズのスキップ) 文認識率(%)
言語model   bigram trigram
    特定話者 不特定話者 特定話者 不特定話者
累積文認識率 $1$ 49.4% 31.4% 71.6% 61.7%
  $\sim2$ 56.3% 41.0% 77.0% 72.0%
  $\sim8$ 60.2% 44.4% 79.7% 76.7%
word correct   81.3% 62.5% 89.4% 85.1%
word accuracy   66.8% 43.0% 85.0% 77.9%

text-closed; ビーム幅:4,096; $\alpha $:1




Jin'ichi Murakami 平成13年1月5日