next up previous contents
次へ: 音声分析 上へ: soturon 戻る: 表一覧   目次

はじめに

従来の単語音声認識においては,主に音声の音韻的特徴が用いられてきた.しかし,日本語では,「箸」,「橋」のような音韻的には同一だがアクセントの違いによって弁別できる単語が存在する.過去の研究において,同音異義語の音声認識の研究はあまり行われていない [6] .韻律的特徴を用いた研究としては,高橋ら [5] の研究がある. 高橋らの研究は音声からピッチパターンを抽出し単語のアクセント型の0型,1型,N型(0,1型以外)を認識する研究であり,認識においては音声の音韻とアクセントは別々に認識される.

本研究では音韻とアクセントを別々に認識する必要はないとし,単語のアクセント型の情報と各モーラ位置でのアクセントの高低の情報を音素HMMに付与し,音声の音韻とアクセントを同時に認識するようにして同音異義語の認識精度を調査した.また,特徴パラメータに一般的に使用されているMFCCは音韻的特徴しか含んでいないため,韻律的情報を含むFBANKを用いた特徴パラメータを用いて認識精度を調査した.

実験の結果,音素HMMに単語のアクセント型の情報と各モーラ位置でのアクセントの高低の情報を加えることによって,同音異義語が認識でき,精度が高いことを確認した.また,アクセントの情報を用いたモデルは用いないモデルより単語音声認識精度が高いことを確認した。そして,アクセントの情報を用いた同音異義語認識において,FBANKを用いた特徴パラメータは,MFCCを用いた特徴パラメータより精度が高いことを確認した。



平成16年4月17日