音素スキップ（言語モデルによる対策）

次へ: 自由発話認識 上へ: 自由発話の音声認識アルゴリズム 戻る: garbageモデル（音響モデルによる対策）

音素スキップ（言語モデルによる対策）

間投詞や言い直しは、文の全ての場所に出現する可能性がある。そこで、音響モデルでは間投詞や言い直しを音素系列として認識しながら、言語モデルでは音素系列をスキップすることにより、間投詞や言い直しを含む自由発話の音声でも認識が可能になる。ただし、このようなアルゴリズムでは、音声データ全てが音素系列と認識される可能性があるため、本論文ではペナルティとして音素のtrigramを使用する。

例えば「``東京都'' ``港区'' ``新橋'' ``あのう(anou)'' ``1丁目''」と発声されたとする。そして「あのう」は間投詞とする。このときの言語モデルの連鎖確率値は ( ``新橋'' $\vert$ ``東京都'', ``港区'') $\times P( /a/\vert/sh/, /i/ ) \times P ( /n/\vert/i/,/a/ ) \times P ( /o/\vert/a/,/n/ ) \times P( /u/\vert/n/,/o/ ) \times P$ (``1丁目'' $\vert$ ``港区'' ``新橋'' )と計算する。ここで、 $P( /a/\vert/sh/, /i/ )$ はペナルティ、 (``1丁目'' $\vert$ ``港区'' ``新橋'' )は''あのう''を音素系列と見てスキップしたことを示している。

この方法は、前節で述べたgarbageモデルを言語モデルで実現する方法であると言える。また、既に提案されている未知語検出のアルゴリズムと基本的には同一の思想である [11],[12],[7],[13],[14],[16]。ただし、これらの論文では未知語検出を目的にしている。また、使用している言語モデルも異なる。

Jin'ichi Murakami 平成13年10月2日

音素スキップ （言語モデルによる対策）

音素スキップ（言語モデルによる対策）