話者 | 基本モデル | アクセントモデル |
mau | 6.76%(177/2620) | 3.85%(101/2620) |
mmy | 7.21%(189/2620) | 4.58%(120/2620) |
mnm | 8.13%(213/2620) | 4.16%(109/2620) |
faf | 7.33%(192/2620) | 3.78%(99/2620) |
fms | 7.06%(185/2620) | 5.23%(137/2620) |
ftk | 6.82%(179/2620) | 4.16%(109/2620) |
平均 | 7.22%(1135/15720) | 4.29%(675/15720) |
話者 | 基本モデル | アクセントモデル |
mau | 10.31%(270/2620) | 7.02%(184/2620) |
mmy | 12.29%(322/2620) | 7.10%(186/2620) |
mnm | 10.34%(271/2620) | 7.33%(192/2620) |
faf | 8.70%(228/2620) | 6.37%(167/2620) |
fms | 11.45%(300/2620) | 8.21%(215/2620) |
ftk | 9.77%(256/2620) | 7.18%(188/2620) |
平均 | 10.48%(1647/15720) | 7.20%(1132/15720) |
話者 | 基本モデル | アクセントモデル |
mau | 4.69%(123/2620) | 3.21%(84/2620) |
mmy | 6.18%(162/2620) | 3.74%(98/2620) |
mnm | 5.46%(143/2620) | 3.40%(89/2620) |
faf | 4.69%(123/2620) | 3.05%(80/2620) |
fms | 5.50%(144/2620) | 3.51%(92/2620) |
ftk | 4.85%(127/2620) | 3.40%(89/2620) |
平均 | 5.23%(822/15720) | 3.38%(532/15720) |
アクセントモデルの単語音声認識精度は,基本モデルより高かった.最も単語音声認識精度が高かったのは,FBANKのFull-covarianceでのアクセントモデルの実験で6話者平均96.71% の精度が得られた.一方,同条件の基本モデルは平均94.52%の精度であった.
実験結果よりアクセントモデルは単語音声認識に対しても効果があることを確認した.