next up previous
次へ: 音素スキップとgarbage モデルの比較 上へ: 考察 戻る: 音響尤度と言語の連鎖確率の結合値

単語のtrigramの連鎖確率値の平滑化に関して

今回の自由発話の実験では、単語のtrigramの値を平滑化をしない方が、 deleted-interpolationで平滑化をした場合より高い認識性能が得られた。こ の原因をdeleteted-interpolationの計算方法にあると考えている。 deleteted-interpolationは、有限個のテキストから単語のunigramとbigramと trigramの連鎖確率値を計算し、真のtrigramの連鎖確率値をこれらの組合せで 推定できると仮定して、この比を同じテキストデータから計算している [15]。つまりgarbage modelや音素スキップを想定していない。し たがってgarbage modelや音素スキップなどを採用した認識システムでは、通 常のdeleted-interpolationで求めた値が妥当な値ではなくなると考えられる。 したがって認識性能が低下したと考えられる。今後、garbage modelや音素ス キップなどを取り入れたときのdeleted-interpolationの方法を検討する必要 がある。

なお、自由発話では、文字化した文章と発話した音素列の差は朗読発話より大 きくなる。例えば「会議にー(い)」と発声している音声を「会議に」と文字 化している。したがって、自由発話の音声認識では、全ての音素を完全に認識 することはできなくて、意味的に合っている文章を出力することしか できないと思われる。したがって、自由発話の認識のための言語モデルには、非 文を生成しないこと、そしてperplexityが低いことが要求され、モデルがカバー できない範囲はgarbage モデルや音素スキップで対処するのが妥当であると考 えている。



Jin'ichi Murakami 平成13年10月2日