言語の-gram モデルは、非常に簡単なモデルで、例えばbigramは直前 の単語に対して現在の単語が接続する確率である。またtrigramは、2つ前 の単語と直前の単語に対して現在の単語が接続する確率である。しかし、音 声認識の認識性能向上において非常に有効なモデルであることが知られてい る。-gramモデルを音声認識の言語モデルとして使用し有効性を確かめた 論文としてはIBMの研究[7]が有名である。
現在-gramモデルは、英文音声認識に使用する言語モデルの主流になっ ている。しかし、日本語において音声認識に-gramを使用し有効性を確か めた論文は少ない [45]。この原因の1つに、日本語の大量のテ キストデータベースの欠如にあると思われる。trigramの値を精度よく求め るためには、基本的には大量のテキストデータ量が必要である。英語ではデー タベースの重要性が認識されていて古くからBrown corpusやAP corpusなど がある。これらのデータベースは形態素解析などの研究のために使用されて いる。しかし日本語ではコンピュータに読み込める形式で利用できる大量の データベースが最近まで存在していなかった。そのため、確率的な言語モデ ルの研究は最近まであまり報告されていなった。しかし、この状況も新聞記 事がCD-ROMで提供されるようになり、国際電気通信基礎技術研究所(ATR)が各種対 話データを販売する[10]など、状況が変化し始めている。
そこで本章では音声認識のための言語モデルとしての-gramの有効性につ いて研究した。