ATRでは、発話テキストを参照しながら人手で音素境界を決定するラベリング 作業において、音素境界が不明瞭な音素区間に対して付与するラベルのことを融 合ラベルと呼んでいる。この融合ラベルの付与率を4名の話者の自由発話と朗読発 話において調べた。この結果を図6.9に示す。この図か ら以下のことがわかる。
なお、 /i,y/, /u,g/, /N,g/, /N,j/, /f,u/, /i,m/, /k,u/, /u,h/, /u,w/, /u,y/, /u,n/, /N,b/, /N,d/, /N,n/, /a,a/, /e,e/, /e,i/, /i,i/, /k,i/, /o,o/, /o,u/, /s,u/, /sh,i/, /u,u/ などの音素環境は 朗読発話、自由発話ともに、融合ラベルになりがちであった。 また、文末の2音素を調査したところ、 母音では/e/と/u/、子音では/g/と /n/が融合ラベルになりやすかった。
話者2名において単語発話、文節の朗読発話、文の朗読発話、自由発話における 融合ラベルの付与率、発話速度、および音素認識誤り率を調査した。これらのデー タは、文節の朗読発話と文の朗読発話の発話内容は同一であるが、単語発話およ び朗読発話および自由発話の発話内容は異なる。また、単語発話、文節の朗読発 話、文の朗読発話の発話内容は話者間に相違はないが、自由発話では、各話者の 発話内容は異なっている。なお単語発話のデータはATRのデータベースにおいて 通称(D0-D5)、文節の朗読発話は通称DSA、文の朗読発話には通称DSCと呼ばれて いるものを使用した。
融合ラベルの付与率の結果を図 6.10に示す。この図から読みとれることを以下に示す。