次へ: 結合価パターンによる候補文の削減 上へ: 結合価パターンを用いた音声認識Speech Recgnition using Valency 戻る: 結合価パターンを用いた音声認識Speech Recgnition using Valency

はじめに

言語モデルには，大きくわけて文法規則的な統語情報と，確率的な統計情報がある．現在の音声認識では，一般には言語モデルに単語-gramが用いられている [1]．しかし，単語-gram言語モデルは，言語の隣接統計情報であり統語的な情報を含んでいない．

音声認識のための言語モデルにおいて，統語的な情報として文脈自由文法を用いたもの[2]や，ネットワーク文法を用いたもの[3]がある．しかし，これらのシステムで使用された言語モデルは，語彙やルールの数が少ないため，言語の統語情報がどれくらい有効であるか不明であった．

本研究では，統語的な情報として結合価パターンを使用する．結合価パターンとは格要素と用言に対する制約効果を記述したものである．この結合パターンとして岩波出版から出版されている日本語語彙大系[4]を利用する．この語彙大系は，単語総数40万，単語の結合価パターン数約14000，名詞の分類12段の2710種類に分類されている規模の大きな辞書である．

本報告では，始めに言語モデルにbigramを用いた音声認識プログラムを使用して複数の候補文を出力する．次に，結合価パターンを用いて候補文を選出する．最後に，結合価パターンを用いることによる累積文正解率の変化を調査する．

平成15年9月25日