文節内文法を獲得するためのデータとして、ATR対話データベース(ADD) (3.3.1節参照)の中から電話による2つの対話記録、国際会議及び旅行 代理店に対する問い合わせ(以下SET1・SET2)を使用した。なお、 これらのデータベースには、形態素レベルから文・会話レベルまでのオブジェ クトに関する情報、及びオブジェクト間の関係を表す情報が付加されているが、 これらの情報から会話に関係しない記号や言い誤りの訂正などの部分を取り除 いて、文節区切りと文節内の形態素並びの情報を抽出した。それぞれのデータ についての統計情報を表 9.1に示す。
なお、表 9.1から、2つのタスクとも1文節内が短い形態素の 連鎖が多いことが分かる。これは、間投詞・感動詞のような1形態素1文節のパ タンが多く存在するためと考えられる [102]。なお、キーボード会話 では、間投詞・感動詞があまり現れないため分布が連鎖の長い方に移動する [11]。また、2つのタスクの特徴的な違いは、SET1に見られる 感動詞の瀕出がSET2には見られない。