次へ: 間投詞や言い直しの対策 上へ: 確率的言語モデルによる自由発話認識に関する研究 戻る: まとめ目次

自由発話の音声認識

従来の音声認識システムの多くは丁寧に発声された音声を入力対象にしている。しかし、人間同士のコミュニケーションでは、「あのー」「えーと」などに代表される間投詞や、言い淀みや言い誤りおよび言い直しや倒置などが頻繁に出現する。このような音声でも認識できる、いわゆる自由発話の音声認識が、今後の重要な研究課題になると思われる。しかし、このような発話様式では、認識精度の高い音響モデルの作成は困難であると考えられる。そこで認識性能を向上させるため、perplexityの低い言語モデルが必要になる。

現在、音声認識に用いられている言語モデルは、簡潔さ・有効などの点から単語のbigramモデルが主流である[40]。しかし、単語のtrigramモデルの perplexityはbigramより一般的に低いことが知られている。そこで、ここでは2.3節で報告したアルゴリズムを基本に言語モデルとして単語のtrigramを用いて自由発話の認識を試みた。

Subsections

Jin'ichi Murakami 平成13年1月5日