next up previous
次へ: garbageモデル(音響モデルによる対策) 上へ: main2 戻る: log 計算

自由発話の音声認識アルゴリズム

人間同士のコミュニケーションでは、「あのー」「えーと」などに代表される 間投詞や、言い淀みや言い誤りおよび言い直しなどが頻繁に出現する。しかし、 このような発話様式において認識精度の高い音響モデルを作成することは困難 であると考えられる。そこでperplexityの低い言語モデルに着目し、単語 trigramを基本の言語モデルとした。

また、自由発話に特有な言語現象として間投詞や言い淀み・言い直しがある。 これらの間投詞や言い直しは、文の全ての場所に出現する可能性がある。これ らの対応方法として連続Viterbiアルゴリズムによるキーワードスポッテング などの多くの方法が提案されている。これらのアルゴリズムの中の1つに garbageモデルを使用する方法がある。garbageモデルは、キーワードスポッテ ングにおいて使用されていたモデルで、キーワード以外の音素を数個のHMMで モデル化する[8][9]。これをViterbiサーチに組み込 み、間投詞や言い直しなどの不要語をgarbageモデルで対応する方法を井上ら は提案している[10]。

この方法は、間投詞や言い直しを音響モデルで解決した方法と言える。しかし、 言語モデルにおいて、間投詞や言い直しを音素の系列とみなし、この音素をス キップすることで同様なことが実現できる。

本論文では単語の trigramモデルを基本の言語モデルとして、この2つの方法 で自由発話の認識を試みた。



Subsections

Jin'ichi Murakami 平成13年10月2日