次へ: 謝辞 上へ: shuuron 戻る: 状態共有の調査目次

おわりに

本研究では, 従来の単語音声認識において, あまり行われてこなかった日本語の同音異義語の音声認識を調査した. 不特定話者において同音異義語を音声認識するために, アクセント情報を用いたモデルを提案し, 単語音声認識実験を行った. そして, 評価データ中に含まれるアクセントの異なる同音異義語に注目した. なお, アクセント情報を音素ラベルに付与すると, 音素数が増加し, 信頼性のあるHMMのパラメータ推定は困難である. そこで, 本研究では, 半連続型HMMと木に基づく状態共有手法を用いた状態共有型HMMを利用して認識を行い評価した. また, 認識精度向上のために, 前後音素環境情報も利用した. そして, 特徴パラメータに一般的に使われているMFCCは音韻的特徴しか含んでいないため, アクセントを用いた実験において認識精度が低いと予測した. そのため, 韻律的特徴を含むFBANKを用いて認識結果をMFCCと比較し評価した.

不特定話者における実験結果より以下を確認した.

前後環境も考慮したアクセントtriphoneモデルのMFCC, Full, 半連続型 HMMにおいて89%の同音異義語音声認識の精度が得られた.
単語音声認識精度においてもアクセントtriphoneモデルMFCC, Full, 半連続型HMMの結果が最も高く94.65%の精度が得られた.
韻律情報が含まれる特徴パラメータであるFBANKを用いた精度はMFCCより低いことを確認した.
半連続型HMMを用いた認識精度は混合分布数を同一にした状態共有型HMMを用いた認識精度より高いことを確認した.

特定話者における実験結果より以下を確認した.

実験条件が同一の結果では, アクセントモデルの半連続型HMMのFBANK, Fullが同音異義語認識精度と単語認識精度が高かった. そして, 単語音声認識において, 97%の精度が得られた. また, 同音異義語認識において, 96.71%の精度が得られた.
実験条件が同一ではない行った全ての実験結果では, アクセントモデルの半連続型HMMのFBANK, Fullの実験結果とアクセントtriphoneモデルの状態共有型 HMM, FBANK, Diagonalの同音異義語認識精度が最も高く, 97%の精度が得られた.
実験条件が同一ではない行った全ての実験結果では, アクセントtriphoneモデルの状態共有型 HMM, FBANK, Diagonalの単語認識精度が最も高く, 98.19%mp精度が得られた.
韻律情報が含まれる特徴パラメータであるFBANKを用いた精度はMFCCより高いことを確認した.

今後, 認識精度を高める手法としてFBANK を用いることが考えられる. FBANKは特定話者においてMFCCより高い精度が得られる. ゆえに, 話者選択手法や話者適合手法によって不特定話者認識精度の改良を行い特定話者の認識精度に近付けると, FBANKの精度がMFCCより高くなると考えている. また,状態共有において質問や状態数について評価し, 状態共有型HMMの効果を確かめる必要がある. 状態共有型HMMの改善を行うことで, 不特定話者における同音異義語の認識精度が改善できる可能性がある.

平成18年3月20日