next up previous contents
次へ: 単語のtrigramモデルを用いた文音声認識実験 上へ: -gram を用いた音声認識 戻る: まとめ   目次


tree-trellisサーチと単語のtrigramモデルを用いた文音声認識

現在、音声認識に用いられる言語モデルとしては、簡潔さ・有効性などの点か ら単語のbigramモデルが主流である。しかし、単語の trigramは一般的に bigramより小さな perplexityを示す。だが、trigramは、2つ前の単語と直前の 単語が存在したときに現在の単語に遷移する確率であるため、認識アルゴリズ ムにtrigram を組み込んだ場合、大量のメモリ量と計算量が必要になる。本節 では、2.2節で述べたtree-trellisサーチを 基本に朗読発話において単語のtrigramを利用したときの認識実験結果につい て報告する。

ところでポーズは音声データのあらゆる場所に出現する可能性がある。しかし 言語モデルではこれに対応しきれないため、ポーズを含む音声データは誤認識 が起きやすい。ここで利用したtree-trellisサーチでは、各時刻・各状態において最尤 の単語列を知ることができる。この特徴を生かして、音響モデルではポーズを 認識しなから言語モデルではポーズをスキップすることにより、ポーズがある 音声でも誤認識が起こりにくくなる。最後にこのアルゴリズムの有効性につい て述べる。



Subsections

Jin'ichi Murakami 平成13年1月5日