間投詞や言い直しは、文の全ての場所に出現する可能性がある。そこで、音響 モデルでは間投詞や言い直しを音素系列として認識しながら、言語モデルでは 音素系列をスキップすることにより、間投詞や言い直しを含む自由発話の音声 でも認識が可能になる。ただし、このようなアルゴリズムでは、音声データ全 てが音素系列と認識される可能性があるため、本論文ではペナルティとして音 素のtrigramを使用する。
例えば「``東京都'' ``港区'' ``新橋'' ``あのう(anou)'' ``1丁目''」と発 声されたとする。そして 「あのう」は間投詞とする。 このときの 言語モデルの連鎖確率値は ( ``新橋'' ``東京都'', ``港 区'') (``1丁目'' ``港区'' ``新橋'' )と計算する。 ここで、 はペナルティ、 (``1丁目'' ``港区'' ``新橋'' )は''あのう''を音素系列と見てスキップしたことを示している。
この方法は、前節で述べたgarbageモデルを言語モデルで実現する方法である と言える。また、既に提案されている未知語検出のアルゴリズムと基本的には 同一の思想である [11],[12],[7],[13],[14],[16]。ただし、これらの論文では未知語検出を目的にしている。 また、使用している言語モデルも異なる。