言語モデルには,大きくわけて文法規則的な統語情報と,確率的な統計情報があ る.現在の音声認識では,一般には言語モデルに単語-gramが用いられている [1].しかし,単語-gram言語モデルは,言語の隣接統計情報で あり統語的な情報を含んでいない.
音声認識のための言語モデルにおいて,統語的な情報として文脈自由文法を用い たもの[2]や,ネットワーク文法を用いたもの[3]がある.し かし,これらのシステムで使用された言語モデルは,語彙やルールの数が少ない ため,言語の統語情報がどれくらい有効であるか不明であった.
本研究では,統語的な情報として結合価パターンを使用する.結合価パターンと は格要素と用言に対する制約効果を記述したものである.この結合パターンとし て岩波出版から出版されている日本語語彙大系[4]を利用する.この 語彙大系は,単語総数40万,単語の結合価パターン数約14000,名詞の分類12段 の2710種類に分類されている規模の大きな辞書である.
本報告では,始めに言語モデルにbigramを用いた音声認識プログラムを使用して複 数の候補文を出力する.次に,結合価パターンを用いて候補文を選出す る.最後に,結合価パターンを用いることによる累積文正解率の変化を調査する.