next up previous contents
次へ: 間投詞や言い直しの対策 上へ: 確率的言語モデルによる自由発話認識に関する研究 戻る: まとめ   目次


自由発話の音声認識

従来の音声認識システムの多くは丁寧に発声された音声を入力対象にしている。 しかし、人間同士のコミュニケーションでは、「あのー」「えーと」などに代表 される間投詞や、言い淀みや言い誤りおよび言い直しや倒置などが頻繁に出現す る。このような音声でも認識できる、いわゆる自由発話の音声認識が、今後の重 要な研究課題になると思われる。しかし、このような発話様式では、認識精度の 高い音響モデルの作成は困難であると考えられる。そこで認識性能を向上させる ため、perplexityの低い言語モデルが必要になる。

現在、音声認識に用いられている言語モデルは、簡潔さ・有効などの点から単 語のbigramモデルが主流である[40]。しかし、単語のtrigramモデルの perplexityはbigramより一般的に低いことが知られている。そこで、ここで は2.3節で報告したアルゴリズムを基本に 言語モデルとして単語のtrigramを用いて自由発話の認識を試みた。



Subsections

Jin'ichi Murakami 平成13年1月5日