next up previous
次へ: 単語のtrigram modelを使用した文音声認識システム 上へ: main1 戻る: main1

まえがき

従来研究されている音声認識システムでは、認識性能を向上させるために 言語モデルを使用している [1]。 経験的には、音節認識率と言語のperplexityと文認識率には相関 があることが知られて、音声認識において使用される言語モデル は、基本的には、高いカバー率と低いperplexityが必要である。 現在、音声認識に用いられる言語モデルとしては、簡潔さ・有効 性などの点から単語のbigramモデルが主流である。 しかし、単語のtrigramは、確率を計算する方法や学習データ量 どに多くの問題を含んでいるが一般的にはより小さな perplexityを示す。だが、trigramは、前の前の単語と前の単 語が存在したときに現在の単語に遷移する確率であるため 、認識アルゴリズムにtrigram を組み込んだ場合、多くのメモリ量 と計算量が必要になる。そのため、認識アルゴリズムとして1 回の forward探索で単語の trigram モデルを用いた例 は見当たらない [2]。 例えばBBNの文認識システムは、初めにforward探索にbigram を使 用して N-bestリストを作製し、次にbackward探索でtrigramを 利用して再スコアをして最終的な認識結果を得ている。 この方法では、正解の候補がforward探索でN-bestリスト に入らない場合後の探索が無意味なものになり、 trigram の有効性を損う可能性がある[3]。

この論文では、まず初めに trigramを利用した Vitebiサーチ(one-pass DP)の文 音声認識のアルゴリズムについて述べる。次にメモリ量および計 算量を削減したアルゴリズムについて述べる。これは、ビームサー チ法やViterbiの経路計算の方法 の改良などによって、計算量およびメモリ量を削減させ た。そしてこのアルゴリズムを用いて朗読発話の文認識実験を行 なった。

次にポーズがある音声でも、誤認識が起こり難いようにアルゴリズムを改良した結果について述べる。 ポーズは音声データのあらゆる場所に出現する可能 性がある。しかし言語モデルではこれに対応しきれないため、ポーズが原因 で誤認識が起きやすい。ここで提案したアルゴリズムでは、 各時刻・各状態において最尤の単語列を知ることができる。この 特徴を生かして、音響モデルではポーズを認識しなから言語モデ ルではポーズをスキップしてtrigramの連鎖確率を計算す ることにより、ポーズがある音声でも誤認識が起こりにくくなる。

最後に、このアルゴリズムを自由発話の認識に適用した結果につ いて述べる。自由発話では「あのー」、「えーと」に代表される 冗長語を含む文が全体の約5割に達する。そしてこれらの冗長語 は文の全ての場所に出現する可能性があるという点でポーズと似 た性質がある。したがって冗長語の処理にはポーズ処理と同様な 手法が使用できる。



Jin'ichi Murakami 平成13年10月4日