ポーズは、文節間に出現することが多いが、音声データのあらゆる場所に出現 する可能性がある[34]。そこで単語と単語の境界にポーズがあっ ても、誤認識が起き難いようにアルゴリズムを改良した。ここで使用したアル ゴリズムでは、各時刻・各状態において累積尤度が最大の単語列を知ることが できる。そこでポーズを1単語と考えて、ポーズに接続されたときの連鎖確率 値は 1.0にする。そしてポーズ以外の単語に接続されるときポーズをスキップ して trigramの連鎖確率値を計算する。例えば
「``東京都'' ``港区'' ``新橋'' ``1 丁目''」
と発声されたとき、単語trigramの値を
(`` 新橋''``東京都'',``港区'') (``1 丁目''`` 港区'',``新橋'')
と計算する。なお、ポーズのHMMの尤度の学習には、学習データの 前後にある無音区間を利用した。
この改良したアルゴリズムを用いて認識実験を行なった。実験条件 は表4.5と同一である。この結果 を表4.8に載せる。このポーズのスキッ プにより、特定話者認識では、認識性能が向上した(66.7% 71.6%)。また、不特定話者認識では、認識性能 が顕著に向上した(0.0% 61.7%)。
言語model | bigram | trigram | |||
特定話者 | 不特定話者 | 特定話者 | 不特定話者 | ||
累積文認識率 | 49.4% | 31.4% | 71.6% | 61.7% | |
56.3% | 41.0% | 77.0% | 72.0% | ||
60.2% | 44.4% | 79.7% | 76.7% | ||
word correct | 81.3% | 62.5% | 89.4% | 85.1% | |
word accuracy | 66.8% | 43.0% | 85.0% | 77.9% |