next up previous contents
次へ: 考察 上へ: 実験結果 戻る: 同音異義語の認識精度   目次

単語音声認識精度

基本モデルとアクセントモデルの単語音声認識の実験結果を表 1316 に示す.表中の括弧内の分母は6話者の評価データ数である.なお,Full-covarianceのFBANKの実験結果では,学習データの不足で作成されなかった音素が存在するので分母が異なっている.括弧内の分子の数字は誤認識した単語数を示す.なお,アクセントモデルにおいて同音異義語に誤認識している認識結果は正解として集計している.また,付録に話者mau,fafの各実験条件での誤認識の出力結果を示す.


表 13: DiagonalのMFCCでの実験の認識結果,誤り率
話者 基本モデル アクセントモデル
mau 6.76%(177/2620) 3.85%(101/2620)
mmy 7.21%(189/2620) 4.58%(120/2620)
mnm 8.13%(213/2620) 4.16%(109/2620)
faf 7.33%(192/2620) 3.78%(99/2620)
fms 7.06%(185/2620) 5.23%(137/2620)
ftk 6.82%(179/2620) 4.16%(109/2620)
平均 7.22%(1135/15720) 4.29%(675/15720)


表 14: DiagonalのFBANKでの実験の認識結果,誤り率
話者 基本モデル アクセントモデル
mau 10.31%(270/2620) 7.02%(184/2620)
mmy 12.29%(322/2620) 7.10%(186/2620)
mnm 10.34%(271/2620) 7.33%(192/2620)
faf 8.70%(228/2620) 6.37%(167/2620)
fms 11.45%(300/2620) 8.21%(215/2620)
ftk 9.77%(256/2620) 7.18%(188/2620)
平均 10.48%(1647/15720) 7.20%(1132/15720)


表 15: FullのMFCCでの実験の認識結果,誤り率
話者 基本モデル アクセントモデル
mau 4.69%(123/2620) 3.21%(84/2620)
mmy 6.18%(162/2620) 3.74%(98/2620)
mnm 5.46%(143/2620) 3.40%(89/2620)
faf 4.69%(123/2620) 3.05%(80/2620)
fms 5.50%(144/2620) 3.51%(92/2620)
ftk 4.85%(127/2620) 3.40%(89/2620)
平均 5.23%(822/15720) 3.38%(532/15720)


表 16: FullのFBANKでの認識結果,誤り率
話者 基本モデル アクセントモデル
mau 5.21%(136/2611) 2.94%(77/2611)
mmy 6.09%(159/2611) 3.03%(79/2611)
mnm 5.48%(143/2611) 3.14%(82/2611)
faf 4.79%(125/2611) 3.33%(87/2611)
fms 5.52%(144/2611) 3.87%(101/2611)
ftk 5.78%(151/2611) 3.41%(89/2611)
平均 5.48%(858/15666) 3.29%(515/15666)

アクセントモデルの単語音声認識精度は,基本モデルより高かった.最も単語音声認識精度が高かったのは,FBANKのFull-covarianceでのアクセントモデルの実験で6話者平均96.71% の精度が得られた.一方,同条件の基本モデルは平均94.52%の精度であった.

実験結果よりアクセントモデルは単語音声認識に対しても効果があることを確認した.


next up previous contents
次へ: 考察 上へ: 実験結果 戻る: 同音異義語の認識精度   目次
平成16年4月17日