next up previous contents
次へ: 自由発話の音声認識 上へ: -gram を用いた音声認識 戻る: まとめ   目次

まとめ

本章では、音声認識システムに言語モデルとして$N$-gramを利用した有効性を 定量的に研究した。

4.1節では、日本文音声認識において音声の物理的特性を使用 した音声認識装置と自然言語処理の間を結ぶ処理として、trigram モデル を用いた文節処理の二つの方法を提案し、その効果をシミュレーションで実 験的に求めた。入力データは新聞記事である。 その結果、両方の方式とも、漢字かな混じりの文節候補を音節のtrigram を用いた文節候補で得られた正解率と同じか、それ以上の精度 で生成できることが分かった。これは、漢字かなのtrigram モデルの効 果は非常に効果的で、大語彙辞書を用いて、音節から漢字かな混じり文を生 成する際に生じる膨大な曖昧性がほぼ完全に解消することを意味している。

4.2節では、X線CT作成の文章において、言語モデルとして 単語のbigramを用いて特定話者の文節認識実験を行なった。この実験の 結果、単語のbigramの有効性が示された。また 認識単位を単語とした場合、HMMの学習用の音声データが1つでも、 Fuzzey-VQを使用すれば、高い認識率が得られることが示された。

4.3節では、単語trigramを利用した文音声認識の 実験結果を報告した。実験の結果、朗読発話のtext-closed dataにおい て特定話者認識では66.7%の文認識率が得られ、単語のtrigramの有効性が示された。 また音声中にあるポーズの対策として、言語モデルではポーズのスキップ、音響モデルでは ポーズの学習をすることによって認識性能が向上することが示された。

これらの結果、言語モデルとしての$N$-gramの有効が示された。



Jin'ichi Murakami 平成13年1月5日