ポーズは、文節と文節の間に出現することが多いが、音声データの あらゆる場所に出現する可能性がある。しかし、言語モデルでこれに対応 しきれないため、ポーズの区間で誤認識が起きやすい。そこで 単語と単語の境界にポーズがあっても、誤認識が起き難 いようにアルゴリズムを改良した。
ここで提案したアルゴリズムでは、各時刻・各状態において最尤の 単語列を知ることができる。そこでポーズを1単語と考えて、ポー ズに接続されるtrigramの値は1.0にする。そしてポーズ以外の単語 に接続されるときポーズをスキップしてtrigramを計算する。例え ば「東京都 港区 新橋 1丁目」 では ( 新橋 東京都 港区) (1丁目 港区 新橋 )と 計算する。このようにすると、近似解ではあるが、ポーズをスキッ プして単語trigramを用いたときの最尤の解が得られる。
アルゴリズムでは、表 2 step 8 を表 5 のように変更する。
このように改良したアルゴリズムを用いて認識実験を行なった。実験条件 は表 3 と同一である。この結果 を表 6 に載せる。この結果からポーズのスキッ プをすることにより、認識性能が向上することがわかる。
model | 特定話者認識 | 不特定話者認識 |
bigram | 49.4% (129/261) | 31.4% ( 82/261) |
trigram | 71.6% (187/261) | 61.7% (161/261) |