次へ: trigramの有効性について 上へ: 確率的言語モデルによる自由発話認識に関する研究 戻る: まとめ目次

-gram を用いた音声認識

言語の-gram モデルは、非常に簡単なモデルで、例えばbigramは直前の単語に対して現在の単語が接続する確率である。またtrigramは、２つ前の単語と直前の単語に対して現在の単語が接続する確率である。しかし、音声認識の認識性能向上において非常に有効なモデルであることが知られている。-gramモデルを音声認識の言語モデルとして使用し有効性を確かめた論文としてはIBMの研究[7]が有名である。

現在-gramモデルは、英文音声認識に使用する言語モデルの主流になっている。しかし、日本語において音声認識に-gramを使用し有効性を確かめた論文は少ない [45]。この原因の１つに、日本語の大量のテキストデータベースの欠如にあると思われる。trigramの値を精度よく求めるためには、基本的には大量のテキストデータ量が必要である。英語ではデータベースの重要性が認識されていて古くからBrown corpusやAP corpusなどがある。これらのデータベースは形態素解析などの研究のために使用されている。しかし日本語ではコンピュータに読み込める形式で利用できる大量のデータベースが最近まで存在していなかった。そのため、確率的な言語モデルの研究は最近まであまり報告されていなった。しかし、この状況も新聞記事がCD-ROMで提供されるようになり、国際電気通信基礎技術研究所（ATR）が各種対話データを販売する[10]など、状況が変化し始めている。

そこで本章では音声認識のための言語モデルとしての-gramの有効性について研究した。

Subsections

Jin'ichi Murakami 平成13年1月5日