偶数番号の音声の中から4モーラで発話時間がほぼ同じ語を,ランダムに10単語ずつ抽出する. それぞれを相互に重畳した音声(クロストーク音声)を100個作成する. 1セットにつき100単語のクロストーク音声を 4セット作成し, 評価データとして利用する. 表3に実験に使用した単語を示す.
ATR単語発話データベースAsetの奇数番号の2620単語の音声は HMMの学習データとして使用する.
図10に音素HMMの作成と学習及び認識の流れを示す. 音素HMMの作成と学習は,HTKで行う. まず最初に,男性話者と女性話者の初期モデルの作成を行う. 次に,学習データを使用して,男性話者と女性話者HMMの学習及び連結学習を行 う.最後に学習された男性話者と女性話者HMMを利用して,Viterbiアルゴリズム とForwardアルゴリズムを使用し認識を行う.
男性話者 | 女性話者 | |
1 | 悪質(akushitsu) | 足元(ashimoto) |
2 | 聞こえる(kikoeru) | 可愛い(kawaii) |
3 | 加える(kuwaeru) | 勤勉(kiNbeN) |
4 | 失恋(shitsureN) | 細々(komagoma) |
5 | 優れる(sugureru) | すまない(sumanai) |
6 | そのうち(sonouchi) | 対策(taisaku) |
7 | 中毒(chuudoku) | 手拭い(tenugui) |
8 | 内容(naiyou) | 天才(teNsai) |
9 | 暴力(bouryoku) | 滅ぼす(horobosu) |
10 | わざわざ(wazawaza) | 欲張る(yokubaru) |