対話データ

文節内文法を獲得するためのデータとして、ATR対話データベース(ADD) (3.3.1節参照)の中から電話による2つの対話記録、国際会議及び旅行代理店に対する問い合わせ(以下SET1・SET2)を使用した。なお、これらのデータベースには、形態素レベルから文・会話レベルまでのオブジェクトに関する情報、及びオブジェクト間の関係を表す情報が付加されているが、これらの情報から会話に関係しない記号や言い誤りの訂正などの部分を取り除いて、文節区切りと文節内の形態素並びの情報を抽出した。それぞれのデータについての統計情報を表 9.1に示す。

表 9.1: 対話データ

(a) SET1

文節数

28500

品詞列の種類の数

1008

平均連鎖長

2.09 形態素 / 文節

パープレキシティ

9.02

文節長の分布
1	12469
2	7835
3	4438
4～	3758

品詞列の種類
間投詞	15 $\%$
名詞+格助詞	12 $\%$
感動詞	11 $\%$
副詞	5 $\%$

(b) SET2

文節数

30419

品詞列の種類の数

1078

平均連鎖長

2.15 形態素 / 文節

パープレキシティ

8.82

文節長の分布
1	12326
2	9282
3	4500
4～	4311

品詞列の種類
間投詞	18 $\%$
名詞+格助詞	13 $\%$
副詞	6 $\%$
名詞	4 $\%$

なお、表 9.1から、2つのタスクとも1文節内が短い形態素の連鎖が多いことが分かる。これは、間投詞・感動詞のような1形態素1文節のパタンが多く存在するためと考えられる [102]。なお、キーボード会話では、間投詞・感動詞があまり現れないため分布が連鎖の長い方に移動する [11]。また、2つのタスクの特徴的な違いは、SET1に見られる感動詞の瀕出がSET2には見られない。