過去の研究において, 韻律的特徴を用いた研究としては, 高橋ら[10]の研 究がある. 高橋らの研究では音声の音韻とアクセントを別々に認識する. 具体的に は, 音声からピッチパターンを抽出し単語のアクセント型を0型, 1型, N型(0, 1型 以外)の分類で認識する. しかし, 音声から韻律情報のみを分離するのは困難であ る.
そのため以前の研究において, 特定話者における同音異義語の音声認識を行った . 音韻と韻律を分離せずに同時に認識するために, 単語のアクセント型の情報と各 モーラ位置でのアクセントの高低情報を音素に付与しラベル分類を行った. そして , 音声認識に一般的に用いられている特徴パラメータであるMFCCは音韻情報しか含 んでいないため, 同音異義語の認識精度が低いと予想した. そこで, 韻律的情報を 含む特徴パラメータとしてFBANK を用いてMFCCと比較し評価した. 実験の結果, 特 定話者においてアクセント情報と特徴パラメータとしてFBANKを用いることで, 同 音異義語の認識精度が高いことを確認した[12].
そこで本研究では, 不特定話者における同音異義語の音声認識精度を調査する. 具 体的には, 単語のアクセント型の情報と各モーラ位置でのアクセントの高低情報を 音素HMMに付与して単語音声認識を行い, 評価データ中の同音異義語の認識結果に 注目して評価する. 不特定話者認識では, 特定話者認識と比較して認識精度が低下 すると考えられる. そこで, 本研究ではアクセント情報と前後音素環境情報を利用 したモデルを提案し精度を評価する.また, アクセント情報を音素HMMに付与すると 音素数が増加する. そのため, 本研究において, [12]でも使用した半連続 型HMM[8]と木に基づく状態共有手法[9]を用いた状態共有型 HMMを利用する. また, 特徴パラメータとしてFBANKとMFCCを利用する.
実験の結果, アクセント情報と前後音素環境情報を用いた半連続型HMM, MFCC, Fullの同音異義語認識において89%の精度が得られた. そして, 半連続型HMMの認 識精度は, 状態共有型HMMの認識精度より高かった. また, 特徴パラメータとして FBANKを用いた認識精度は, MFCCを用いた認識精度より低かった.