認識に使用する単語は,偶数番号の中から,4モーラで発話時間が ほぼ同じ単語を20個選び,そのうちの10単語を男性話者が,残りの10単語を女性話 者が発声したとする.垂直のモデルを作成時,音素が8個では,セグメンテーションエラーがおきるために, 7個以下とした.
本実験で行う認識は,全て音声認識ツールHTK[5]を使用する.
男性話者 | 女性話者 |
悪質(akusitsu) | 足元(asimoto) |
聞こえる(kikoeru) | 可愛い(kawaii) |
加える(kuwaeru) | 勤勉(kiNbeN) |
失恋(shitsureN) | 答える(kotaeru) |
垂直(suichoku) | すまない(sumanai) |
そのうち(sonouchi) | 対策(taisaku) |
中毒(chuudoku) | 手拭い(tenugui) |
内容(naiyou) | 天才(teNsai) |
暴力(bouryoku) | 微笑む(hohoemu) |
論じる(roNjiru) | 洋服(youfuku) |
入力音声番号 | 男性話者 | 女性話者 |
1 | 悪質 | 足元 |
2 | 悪質 | 可愛い |
3 | 悪質 | 勤勉 |
4 | 悪質 | 答える |
5 | 悪質 | すまない |
6 | 悪質 | 対策 |
7 | 悪質 | 手拭い |
8 | 悪質 | 天才 |
9 | 悪質 | 微笑む |
10 | 悪質 | 洋服 |