next up previous
次へ: ポーズの学習 上へ: trigram model を使用した文認識システムの実験 戻る: 実験結果


ポーズのスキップ

ポーズは、文節と文節の間に出現することが多いが、音声データの あらゆる場所に出現する可能性がある。しかし、言語モデルでこれに対応 しきれないため、ポーズの区間で誤認識が起きやすい。そこで 単語と単語の境界にポーズがあっても、誤認識が起き難 いようにアルゴリズムを改良した。

ここで提案したアルゴリズムでは、各時刻・各状態において最尤の 単語列を知ることができる。そこでポーズを1単語と考えて、ポー ズに接続されるtrigramの値は1.0にする。そしてポーズ以外の単語 に接続されるときポーズをスキップしてtrigramを計算する。例え ば「東京都 港区 新橋 $/pause/$ 1丁目」 では $P$ ( 新橋 $\vert$ 東京都 港区) $\times 1.0\times $ $P$(1丁目$\vert$ 港区 新橋 )と 計算する。このようにすると、近似解ではあるが、ポーズをスキッ プして単語trigramを用いたときの最尤の解が得られる。

アルゴリズムでは、表 2  step 8 を表 5 のように変更する。



表 5: 改良したアルゴリズム(ポーズのスキップ)
8)
if $ w_0 = $/pause/
$ \Delta = \mathop{\rm max}_{ 0\leq w_2 \leq Q-1 } ( G_{t-1}(w_2,w_1,l_{w_1}-2) $
$ \times a^{w_1}_{l_{w_1}-2,l_{w_1}-1} \times b^{w_1}_{l_{w_1}-1}(O_t)) \times 1.0 $
else if $ w_1 = $/pause/
$ \Delta = \mathop{\rm max}_{ 0\leq w_2 \leq Q-1 } ( G_{t-1}(w_2,w_1,l_{w_1}-2) $
$ \times a^{w_1}_{l_{w_1}-2,l_{w_1}-1} \times b^{w_1}_{l_{w_1}-1}(O_t) \times P(w_0\vert w_3,w_2) ^ \alpha )$
else
$ \Delta = \mathop{\rm max}_{ 0\leq w_2 \leq Q-1 } ( G_{t-1}(w_2,w_1,l_{w_1}-2) $
$ \times a^{w_1}_{l_{w_1}-2,l_{w_1}-1} \times b^{w_1}_{l_{w_1}-1}(O_t) \times P(w_0\vert w_2,w_1) ^ \alpha) $
if $\Delta \geq G_t(w_1,w_0,0) $ then $G_t(w_1,w_0,0)=\Delta$


このように改良したアルゴリズムを用いて認識実験を行なった。実験条件 は表 3 と同一である。この結果 を表 6 に載せる。この結果からポーズのスキッ プをすることにより、認識性能が向上することがわかる。



表 6: 認識実験結果(ポーズのスキップ) 認識率(%)
model 特定話者認識 不特定話者認識
bigram 49.4% (129/261) 31.4% ( 82/261)
trigram 71.6% (187/261) 61.7% (161/261)

text-closed ビーム幅:4096 $\alpha $:1





Jin'ichi Murakami 平成13年10月4日