next up previous contents
次へ: 実験条件 上へ: アクセントを用いた単語音声認識 戻る: 音素HMMの作成   目次

学習データと評価データ

本研究でアクセントモデルの有効性検証のために使用する音声データのデータベースには,ATR単語発話データベースAsetを用いる.なお,データベースには,男性話者10名と女性話者10名が発話した単語の音声データが収録されていて,各話者毎に5240単語の音声データが含まれている.また,各音声データには,人手によって付与された音素境界位置情報が与えられる.

本研究の実験は,男性話者3名と女性話者3名で行う.なお,データベースの奇数番を学習データに,偶数番を評価データに用いる.評価データ中には31組の同音異義語が存在する.評価データ中の同音異義語を表 7 に示す. 表中のデータ番号はデータベースにおいて付けられているデータの番号を示す.また,表 7 , 8 の括弧内の数字の0はアクセントの低,1は高を意味する. なお,アクセントが異なる同音異義語は11組である.実験で用いられる同音異義語を表 8 に示す.評価データ2620単語を音声認識し,その中の同音異義語に注目する.実験に用いたデータベースの詳細を表 6に示す.


表 6: 実験に用いたデータベース
データベース ATR単語発話データベースAset 5240単語/話者
話者 6話者(男性3話者(mau,mmy,mnm),女性3話者(faf,ftk,fms))
学習データ 奇数番号2620単語/話者
評価データ 奇数番号2620単語/話者
(11組のアクセントの異なる同音異義語が存在)

なお,表 7 中の実験に用いる6話者分の単語のアクセントを人手で聴取したが,データ番号10762と14882の単語でアクセント辞典から決定したアクセントと異なることを確認した.聴取結果を表 9 に示す. 聴取結果より他のデータにもアクセントの誤りがあると考えられるが,数が多いためにアクセントの訂正は行っていない.一方,実験に用いる表 8 中の単語のアクセントは人手による聴取結果と一致することを確認した.


表 7: 認識データ中の同音異義語の対
データ番号 データ番号
1. 10150 ある(10) 10152 有る(10)
2. 10192 息(10) 10194 意気(10)
3. 10322 居る(01) 10324 射る(10)
4. 10558 置く(01) 10560 億(10)
5. 10666 折る(10) 10668 織る(10)
6. 10734 代える(011) 10736 返る(100)
7. 10760 書く(10) 10762 角(10)
8. 10788 欠ける(011) 10790 駆ける(010)
9. 11042 器械(010) 11044 機械(010)
10. 11056 利く(01) 11058 菊(01)
11. 11062 起源(100) 11064 機嫌(011)
12. 11520 公演(0111) 11522 講演(0111)
13. 11524 公開(0111) 11526 航海(1000)
14. 11564 公正(0111) 11566 構成(0111)
15. 11830 咲く(01) 11832 柵(01)
16. 12118 氏名(100) 12120 指名(011)
17. 12616 住む(10) 12618 澄む(10)
18. 12642 背(10) 12644 性(10)
19. 12732 千(10) 12734 線(10)
20. 13020 度(01) 13022 足袋(10)
21. 13270 付ける(010) 13272 漬ける(011)
22. 13486 解く(10) 13488 徳(01)
23. 13858 刃(1) 13860 歯(1)
24. 13890 吐く(10) 13892 掃く(10)
25. 13960 放す(010) 13962 離す(010)
26. 14216 拭く(01) 14218 服(01)
27. 14520 巻く(01) 14522 幕(01)
28. 14880 焼く(01) 14882 約(01)
29. 15070 因る(01) 15072 夜(10)
30. 15142 礼(10) 15144 零(10)
31. 15210 沸く(01) 15212 枠(01)


表 8: 認識データ中のアクセントの異なる同音異義語の対
1. 居る(01) 射る(10)
2. 代える(011) 返る(100)
3. 欠ける(011) 駆ける(010)
4. 機嫌(011) 起源(100)
5. 公開(0111) 航海(1000)
6. 置く(01) 億(10)
7. 指名(011) 氏名(100)
8. 度(01) 足袋(10)
9. 徳(01) 解く(10)
10. 付ける(010) 漬ける(011)
11. 因る(01) 夜(10)


○:アクセント辞典と聴取結果が同一と判断
△:判断がつかないと判断
×:アクセント辞典と聴取結果が異なると判断
表 9: アクセントの聴取による評価
番号 mau mmy mnm faf fms ftk
10762 × × × ×
14882 × × × × ×
その他


next up previous contents
次へ: 実験条件 上へ: アクセントを用いた単語音声認識 戻る: 音素HMMの作成   目次
平成16年4月17日