next up previous
次へ: 自由発話認識 上へ: 自由発話の音声認識アルゴリズム 戻る: garbageモデル(音響モデルによる対策)


音素スキップ (言語モデルによる対策)

間投詞や言い直しは、文の全ての場所に出現する可能性がある。そこで、音響 モデルでは間投詞や言い直しを音素系列として認識しながら、言語モデルでは 音素系列をスキップすることにより、間投詞や言い直しを含む自由発話の音声 でも認識が可能になる。ただし、このようなアルゴリズムでは、音声データ全 てが音素系列と認識される可能性があるため、本論文ではペナルティとして音 素のtrigramを使用する。

例えば「``東京都'' ``港区'' ``新橋'' ``あのう(anou)'' ``1丁目''」と発 声されたとする。そして 「あのう」は間投詞とする。 このときの 言語モデルの連鎖確率値は $P$( ``新橋'' $\vert$ ``東京都'', ``港 区'') $\times P( /a/\vert/sh/, /i/ ) \times P ( /n/\vert/i/,/a/ ) \times P
( /o/\vert/a/,/n/ ) \times P( /u/\vert/n/,/o/ )
\times P$(``1丁目'' $\vert$ ``港区'' ``新橋'' )と計算する。 ここで、 $ P( /a/\vert/sh/, /i/ ) $はペナルティ、 $P$(``1丁目'' $\vert$ ``港区'' ``新橋'' )は''あのう''を音素系列と見てスキップしたことを示している。

この方法は、前節で述べたgarbageモデルを言語モデルで実現する方法である と言える。また、既に提案されている未知語検出のアルゴリズムと基本的には 同一の思想である [11],[12],[7],[13],[14],[16]。ただし、これらの論文では未知語検出を目的にしている。 また、使用している言語モデルも異なる。



Jin'ichi Murakami 平成13年10月2日