次へ: 謝辞
上へ: shuuron
戻る: 状態共有の調査
目次
本研究では, 従来の単語音声認識において, あまり行われてこなかった日本語の同
音異義語の音声認識を調査した. 不特定話者において同音異義語を音声認識するた
めに, アクセント情報を用いたモデルを提案し, 単語音声認識実験を行った. そし
て, 評価データ中に含まれるアクセントの異なる同音異義語に注目した. なお, ア
クセント情報を音素ラベルに付与すると, 音素数が増加し, 信頼性のあるHMMのパ
ラメータ推定は困難である. そこで, 本研究では, 半連続型HMMと木に基づく状態
共有手法を用いた状態共有型HMMを利用して認識を行い評価した. また, 認識精度
向上のために, 前後音素環境情報も利用した. そして, 特徴パラメータに一般的に
使われているMFCCは音韻的特徴しか含んでいないため, アクセントを用いた実験に
おいて認識精度が低いと予測した. そのため, 韻律的特徴を含むFBANKを用いて認
識結果をMFCCと比較し評価した.
不特定話者における実験結果より以下を確認した.
- 前後環境も考慮したアクセントtriphoneモデルのMFCC, Full, 半連続型
HMMにおいて89%の同音異義語音声認識の精度が得られた.
- 単語音声認識精度においてもアクセントtriphoneモデルMFCC, Full, 半連続
型HMMの結果が最も高く94.65%の精度が得られた.
- 韻律情報が含まれる特徴パラメータであるFBANKを用いた精度はMFCCより低
いことを確認した.
- 半連続型HMMを用いた認識精度は混合分布
数を同一にした状態共有型HMMを用いた認識精度より高いことを確認した.
特定話者における実験結果より以下を確認した.
- 実験条件が同一の結果では, アクセントモデルの半連続型HMMのFBANK,
Fullが同音異義語認識精度と単語認識精度が高かった. そして, 単語音声認識にお
いて, 97%の精度が得られた. また, 同音異義語認識において, 96.71%の精度が
得られた.
- 実験条件が同一ではない行った全ての実験結果では, アクセントモデルの半
連続型HMMのFBANK, Fullの実験結果とアクセントtriphoneモデルの状態共有型
HMM, FBANK, Diagonalの同音異義語認識精度が最も高く, 97%の精度が得られた.
- 実験条件が同一ではない行った全ての実験結果では, アクセントtriphoneモデルの状態共有型
HMM, FBANK, Diagonalの単語認識精度が最も高く, 98.19%mp精度が得られた.
- 韻律情報が含まれる特徴パラメータであるFBANKを用いた精度はMFCCより高
いことを確認した.
今後, 認識精度を高める手法としてFBANK を用いることが考えられる. FBANKは特
定話者においてMFCCより高い精度が得られる. ゆえに, 話者選択手法や話者適合手
法によって不特定話者認識精度の改良を行い特定話者の認識精度に近付けると,
FBANKの精度がMFCCより高くなると考えている. また,状態共有において質問や状態
数について評価し, 状態共有型HMMの効果を確かめる必要がある. 状態共有型HMMの
改善を行うことで, 不特定話者における同音異義語の認識精度が改善できる可能性
がある.
平成18年3月20日