次へ: 自由発話の音声認識 上へ: -gram を用いた音声認識 戻る: まとめ目次

まとめ

本章では、音声認識システムに言語モデルとして-gramを利用した有効性を定量的に研究した。

4.1節では、日本文音声認識において音声の物理的特性を使用した音声認識装置と自然言語処理の間を結ぶ処理として、trigram モデルを用いた文節処理の二つの方法を提案し、その効果をシミュレーションで実験的に求めた。入力データは新聞記事である。その結果、両方の方式とも、漢字かな混じりの文節候補を音節のtrigram を用いた文節候補で得られた正解率と同じか、それ以上の精度で生成できることが分かった。これは、漢字かなのtrigram モデルの効果は非常に効果的で、大語彙辞書を用いて、音節から漢字かな混じり文を生成する際に生じる膨大な曖昧性がほぼ完全に解消することを意味している。

4.2節では、X線CT作成の文章において、言語モデルとして単語のbigramを用いて特定話者の文節認識実験を行なった。この実験の結果、単語のbigramの有効性が示された。また認識単位を単語とした場合、HMMの学習用の音声データが１つでも、 Fuzzey-VQを使用すれば、高い認識率が得られることが示された。

4.3節では、単語trigramを利用した文音声認識の実験結果を報告した。実験の結果、朗読発話のtext-closed dataにおいて特定話者認識では66.7%の文認識率が得られ、単語のtrigramの有効性が示された。また音声中にあるポーズの対策として、言語モデルではポーズのスキップ、音響モデルではポーズの学習をすることによって認識性能が向上することが示された。

これらの結果、言語モデルとしての-gramの有効が示された。

Jin'ichi Murakami 平成13年1月5日