学習データと評価データ

次へ: 分析条件 上へ: 評価実験 戻る: 同音異議語の認識

学習データと評価データ

データベースにはATR単語発話データベースAsetの5240単語/話者の男女各10話者を用いる．データは男女別に，実験対象話者以外の9話者分の奇数番を学習データに用いる．評価データには，実験対象話者の偶数番の同音異義語を用いる．単語のアクセントはNHK 日本語発音アクセント辞典 [3]を利用する． ATRのAsetデータベース中には同音異議語が31組62単語ある．しかし，表記と異なるアクセントの音声があるため，人手による聴取結果と一致する音声のみ使用する．その結果，11組22単語の同音異義語を使用する．実験で用いられる同音異義語を表2 に示す．

表: 評価データ（同音異義語の対）
1.	居る(01)	射る(10)
2.	代える(011)	返る(100)
3.	欠ける(011)	駆ける(010)
4.	機嫌(011)	起源(100)
5.	公開(0111)	航海(1000)
6.	置く(01)	億(10)
7.	指名(011)	氏名(100)
8.	度(01)	足袋(10)
9.	徳(01)	解く(10)
10.	付ける(010)	漬ける(011)
11.	因る(01)	夜(10)

括弧内の数字の0はアクセントの低，1は高を意味する．

Jin'ichi Murakami 平成21年10月7日