次へ: 音声分析 上へ: shuuron 戻る: 表一覧目次

はじめに

従来の単語音声認識においては, 主に音声の音韻的特徴が用いられてきた. しかし , 日本語では, 「箸」, 「橋」のような音韻的には同一だがアクセントの違いによって弁別できる単語が存在する. しかし, 日本語における同音異義語の音声認識の研究はあまり行われていない[11].

過去の研究において, 韻律的特徴を用いた研究としては, 高橋ら[10]の研究がある. 高橋らの研究では音声の音韻とアクセントを別々に認識する. 具体的には, 音声からピッチパターンを抽出し単語のアクセント型を0型, 1型, N型(0, 1型以外)の分類で認識する. しかし, 音声から韻律情報のみを分離するのは困難である.

そのため以前の研究において, 特定話者における同音異義語の音声認識を行った . 音韻と韻律を分離せずに同時に認識するために, 単語のアクセント型の情報と各モーラ位置でのアクセントの高低情報を音素に付与しラベル分類を行った. そして , 音声認識に一般的に用いられている特徴パラメータであるMFCCは音韻情報しか含んでいないため, 同音異義語の認識精度が低いと予想した. そこで, 韻律的情報を含む特徴パラメータとしてFBANK を用いてMFCCと比較し評価した. 実験の結果, 特定話者においてアクセント情報と特徴パラメータとしてFBANKを用いることで, 同音異義語の認識精度が高いことを確認した[12].

そこで本研究では, 不特定話者における同音異義語の音声認識精度を調査する. 具体的には, 単語のアクセント型の情報と各モーラ位置でのアクセントの高低情報を音素HMMに付与して単語音声認識を行い, 評価データ中の同音異義語の認識結果に注目して評価する. 不特定話者認識では, 特定話者認識と比較して認識精度が低下すると考えられる. そこで, 本研究ではアクセント情報と前後音素環境情報を利用したモデルを提案し精度を評価する.また, アクセント情報を音素HMMに付与すると音素数が増加する. そのため, 本研究において, [12]でも使用した半連続型HMM[8]と木に基づく状態共有手法[9]を用いた状態共有型 HMMを利用する. また, 特徴パラメータとしてFBANKとMFCCを利用する.

実験の結果, アクセント情報と前後音素環境情報を用いた半連続型HMM, MFCC, Fullの同音異義語認識において89%の精度が得られた. そして, 半連続型HMMの認識精度は, 状態共有型HMMの認識精度より高かった. また, 特徴パラメータとして FBANKを用いた認識精度は, MFCCを用いた認識精度より低かった.

平成18年3月20日